論文の概要: A Truly Joint Neural Architecture for Segmentation and Parsing
- arxiv url: http://arxiv.org/abs/2402.02564v1
- Date: Sun, 4 Feb 2024 16:56:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 18:46:49.080779
- Title: A Truly Joint Neural Architecture for Segmentation and Parsing
- Title(参考訳): セグメンテーションとパースのための真の統合ニューラルアーキテクチャ
- Authors: Danit Yshaayahu Levi and Reut Tsarfaty
- Abstract要約: 形態的リッチ言語(MRL)の性能は他の言語よりも低い。
空間的に制限された入力トークンのモルフォロジーの複雑さとあいまいさのため、ツリーのノードとして機能する言語単位は事前に分かっていない。
本稿では,入力のすべての形態的あいまいさを保存する格子型表現をアーク分解モデルに提供し,その形態的・構文的解析タスクを一度に解く,結合型ニューラルアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 15.866519123942457
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contemporary multilingual dependency parsers can parse a diverse set of
languages, but for Morphologically Rich Languages (MRLs), performance is
attested to be lower than other languages. The key challenge is that, due to
high morphological complexity and ambiguity of the space-delimited input
tokens, the linguistic units that act as nodes in the tree are not known in
advance. Pre-neural dependency parsers for MRLs subscribed to the joint
morpho-syntactic hypothesis, stating that morphological segmentation and
syntactic parsing should be solved jointly, rather than as a pipeline where
segmentation precedes parsing. However, neural state-of-the-art parsers to date
use a strict pipeline. In this paper we introduce a joint neural architecture
where a lattice-based representation preserving all morphological ambiguity of
the input is provided to an arc-factored model, which then solves the
morphological segmentation and syntactic parsing tasks at once. Our experiments
on Hebrew, a rich and highly ambiguous MRL, demonstrate state-of-the-art
performance on parsing, tagging and segmentation of the Hebrew section of UD,
using a single model. This proposed architecture is LLM-based and language
agnostic, providing a solid foundation for MRLs to obtain further performance
improvements and bridge the gap with other languages.
- Abstract(参考訳): 現代の多言語依存構文解析器は多様な言語を解析できるが、形態学的にリッチな言語(mrls)の場合、性能は他の言語よりも低いことが証明される。
鍵となる課題は、空間制限された入力トークンの形態的複雑さと曖昧さのため、ツリーのノードとして機能する言語単位が事前に分かっていないことである。
MRLに対する前神経依存性パーサは, 形態的セグメンテーションと構文解析は, セグメンテーションが解析に先行するパイプラインとしてではなく, 共同で解決されるべきである。
しかし、これまでの最先端のニューラルパーサーは厳格なパイプラインを使用する。
本稿では,入力のすべての形態的あいまいさを保存した格子ベースの表現をarc-factoredモデルに提供し,形態的セグメンテーションと構文解析タスクを一度に解くジョイントニューラルアーキテクチャを提案する。
リッチで高度にあいまいなmrlであるヘブライの実験では、単一のモデルを用いて、udのヘブライ語のセクションのパース、タグ付け、セグメンテーションにおける最先端のパフォーマンスを示す。
提案アーキテクチャはLLMベースで言語に依存しないため,MRLがさらなるパフォーマンス向上と,他の言語とのギャップを埋めるための基盤となる。
関連論文リスト
- Training Neural Networks as Recognizers of Formal Languages [87.06906286950438]
形式言語理論は、特に認識者に関するものである。
代わりに、非公式な意味でのみ類似したプロキシタスクを使用するのが一般的である。
ニューラルネットワークを文字列のバイナリ分類器として直接訓練し評価することで、このミスマッチを補正する。
論文 参考訳(メタデータ) (2024-11-11T16:33:25Z) - MAGNET: Improving the Multilingual Fairness of Language Models with Adaptive Gradient-Based Tokenization [81.83460411131931]
マルチ言語設定では、非ラテン語スクリプトと低リソース言語は通常、言語モデルの実用性、効率、コストの点で不利である。
適応的勾配に基づくサブワードトークン化による過分割を低減するために,多言語適応型勾配ベーストークン化を提案する。
論文 参考訳(メタデータ) (2024-07-11T18:59:21Z) - MRL Parsing Without Tears: The Case of Hebrew [14.104766026682384]
形態的にリッチな言語(MRL)では、トークンごとに複数の語彙単位を識別する必要があるが、既存のシステムはレイテンシとセットアップの複雑さに悩まされている。
決定は、専門家の分類器によって、各ユニットが1つの特定のタスクに特化して行われる。
この信じられないほど高速なアプローチは、HebrewのPOSタグ付けと依存性解析に新しいSOTAを設定し、他のHebrewタスクではほぼSOTAのパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-03-11T17:54:33Z) - On Robustness of Prompt-based Semantic Parsing with Large Pre-trained
Language Model: An Empirical Study on Codex [48.588772371355816]
本稿では,大規模なプロンプトベース言語モデルであるコーデックスの対角的ロバスト性に関する最初の実証的研究について述べる。
この結果から, 最先端の言語モデル(SOTA)は, 慎重に構築された敵の例に対して脆弱であることが示された。
論文 参考訳(メタデータ) (2023-01-30T13:21:00Z) - Demystifying Neural Language Models' Insensitivity to Word-Order [7.72780997900827]
摂動の定量化により,自然言語モデルの単語順に対する不感度について検討する。
ニューラルネットワークモデルは、トークンのグローバルな順序付けよりも、局所的な順序付けを必要とする。
論文 参考訳(メタデータ) (2021-07-29T13:34:20Z) - Constrained Language Models Yield Few-Shot Semantic Parsers [73.50960967598654]
我々は,事前学習された大規模言語モデルの利用を,少ない意味論として検討する。
意味構文解析の目標は、自然言語入力によって構造化された意味表現を生成することである。
言語モデルを用いて、入力を英語に似た制御されたサブ言語にパラフレーズし、対象の意味表現に自動的にマッピングする。
論文 参考訳(メタデータ) (2021-04-18T08:13:06Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z) - Do Neural Language Models Show Preferences for Syntactic Formalisms? [14.388237635684737]
本研究では,言語モデルが捉えた構文構造のセマンランスが,表面シンタクティックあるいは深層構文解析の様式にどの程度依存しているかについて検討する。
13の異なる言語で訓練されたBERTおよびELMoモデルに対して,有向依存木抽出のためのプローブを適用した。
どちらのモデルも、SUDよりもUDを好むことが分かりました。
論文 参考訳(メタデータ) (2020-04-29T11:37:53Z) - A Hybrid Approach to Dependency Parsing: Combining Rules and Morphology
with Deep Learning [0.0]
本稿では,特に訓練データ量に制限のある言語に対して,依存関係解析の2つのアプローチを提案する。
第1のアプローチは、最先端のディープラーニングとルールベースのアプローチを組み合わせ、第2のアプローチは、形態情報をネットワークに組み込む。
提案手法はトルコ語向けに開発されたが、他の言語にも適用可能である。
論文 参考訳(メタデータ) (2020-02-24T08:34:33Z) - A Simple Joint Model for Improved Contextual Neural Lemmatization [60.802451210656805]
本稿では,20言語で最先端の成果を得られる,単純結合型ニューラルモデルを提案する。
本論文では,トレーニングと復号化に加えて,本モデルについて述べる。
論文 参考訳(メタデータ) (2019-04-04T02:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。