論文の概要: MRL Parsing Without Tears: The Case of Hebrew
- arxiv url: http://arxiv.org/abs/2403.06970v1
- Date: Mon, 11 Mar 2024 17:54:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 17:46:42.711815
- Title: MRL Parsing Without Tears: The Case of Hebrew
- Title(参考訳): 涙のないMRL解析 : ヘブライ語の場合
- Authors: Shaltiel Shmidman, Avi Shmidman, Moshe Koppel, Reut Tsarfaty
- Abstract要約: 形態的にリッチな言語(MRL)では、トークンごとに複数の語彙単位を識別する必要があるが、既存のシステムはレイテンシとセットアップの複雑さに悩まされている。
決定は、専門家の分類器によって、各ユニットが1つの特定のタスクに特化して行われる。
この信じられないほど高速なアプローチは、HebrewのPOSタグ付けと依存性解析に新しいSOTAを設定し、他のHebrewタスクではほぼSOTAのパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 14.104766026682384
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Syntactic parsing remains a critical tool for relation extraction and
information extraction, especially in resource-scarce languages where LLMs are
lacking. Yet in morphologically rich languages (MRLs), where parsers need to
identify multiple lexical units in each token, existing systems suffer in
latency and setup complexity. Some use a pipeline to peel away the layers:
first segmentation, then morphology tagging, and then syntax parsing; however,
errors in earlier layers are then propagated forward. Others use a joint
architecture to evaluate all permutations at once; while this improves
accuracy, it is notoriously slow. In contrast, and taking Hebrew as a test
case, we present a new "flipped pipeline": decisions are made directly on the
whole-token units by expert classifiers, each one dedicated to one specific
task. The classifiers are independent of one another, and only at the end do we
synthesize their predictions. This blazingly fast approach sets a new SOTA in
Hebrew POS tagging and dependency parsing, while also reaching near-SOTA
performance on other Hebrew NLP tasks. Because our architecture does not rely
on any language-specific resources, it can serve as a model to develop similar
parsers for other MRLs.
- Abstract(参考訳): 構文解析は関係抽出や情報抽出にとって重要なツールであり、特にLLMが欠落している資源に乏しい言語ではなお重要である。
しかし、各トークン内の複数の語彙単位をパーサが識別する必要がある形態学的にリッチな言語(MRL)では、既存のシステムはレイテンシとセットアップの複雑さに悩まされる。
まず、セグメンテーション、次に形態素タグ付け、そして構文解析である。しかし、以前のレイヤのエラーは、前方に伝播する。
他のアーキテクチャでは、すべての置換を一度に評価するためにジョイントアーキテクチャを使用するが、精度は向上するが、明らかに遅い。
それとは対照的に、ヘブライ語をテストケースとして、私たちは新しい"フリップパイプライン(flipped pipeline)"を提示します。
分類器は互いに独立しており、最後にはそれらの予測を合成する。
この驚くほど高速なアプローチは、ヘブライのPOSタグ付けと依存性解析に新たなSOTAを設定し、他のヘブライのNLPタスクではほぼSOTAのパフォーマンスを実現している。
我々のアーキテクチャは言語固有のリソースに依存しないので、他のMRLと同様のパーサを開発するモデルとして機能する。
関連論文リスト
- Training Neural Networks as Recognizers of Formal Languages [87.06906286950438]
形式言語理論は、特に認識者に関するものである。
代わりに、非公式な意味でのみ類似したプロキシタスクを使用するのが一般的である。
ニューラルネットワークを文字列のバイナリ分類器として直接訓練し評価することで、このミスマッチを補正する。
論文 参考訳(メタデータ) (2024-11-11T16:33:25Z) - MAGNET: Improving the Multilingual Fairness of Language Models with Adaptive Gradient-Based Tokenization [81.83460411131931]
マルチ言語設定では、非ラテン語スクリプトと低リソース言語は通常、言語モデルの実用性、効率、コストの点で不利である。
適応的勾配に基づくサブワードトークン化による過分割を低減するために,多言語適応型勾配ベーストークン化を提案する。
論文 参考訳(メタデータ) (2024-07-11T18:59:21Z) - A Truly Joint Neural Architecture for Segmentation and Parsing [15.866519123942457]
形態的リッチ言語(MRL)の性能は他の言語よりも低い。
空間的に制限された入力トークンのモルフォロジーの複雑さとあいまいさのため、ツリーのノードとして機能する言語単位は事前に分かっていない。
本稿では,入力のすべての形態的あいまいさを保存する格子型表現をアーク分解モデルに提供し,その形態的・構文的解析タスクを一度に解く,結合型ニューラルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-02-04T16:56:08Z) - Multilingual Sequence-to-Sequence Models for Hebrew NLP [16.010560946005473]
シーケンス・ツー・シーケンス生成アーキテクチャはヘブライ語のような形態的にリッチな言語(MRL)により適していることを示す。
我々は,ヘブライ語NLPパイプラインのタスクをテキスト・テキスト・タスクとしてキャストすることで,マルチリンガルで事前訓練されたシーケンス・ツー・シーケンスモデルをmT5として活用できることを実証した。
論文 参考訳(メタデータ) (2022-12-19T18:10:23Z) - Zero-Shot Cross-lingual Semantic Parsing [56.95036511882921]
7つのテスト言語に対する並列データを持たないゼロショット問題として,言語間セマンティックパーシングについて検討した。
英文論理形式ペアデータのみを用いて解析知識を付加言語に転送するマルチタスクエンコーダデコーダモデルを提案する。
このシステムは、ゼロショット解析を潜時空間アライメント問題としてフレーム化し、事前訓練されたモデルを改善し、最小のクロスリンガル転送ペナルティで論理形式を生成することができる。
論文 参考訳(メタデータ) (2021-04-15T16:08:43Z) - Low-Resource Task-Oriented Semantic Parsing via Intrinsic Modeling [65.51280121472146]
私たちは本質的にオントロジーラベルについて知っているものを利用して、効率的なセマンティック解析モデルを構築します。
我々のモデルはTOPv2から派生した低リソースのベンチマークを用いて高効率である。
論文 参考訳(メタデータ) (2021-04-15T04:01:02Z) - Multilingual Autoregressive Entity Linking [49.35994386221958]
mGENREはMultilingual Entity Linking問題のためのシーケンス対シーケンスシステムである。
与えられた言語で言及すると、mGENREはターゲットエンティティの名前を左から右へ、トークンごとに予測します。
提案手法の有効性を3つのMELベンチマーク実験を含む広範囲な評価により示す。
論文 参考訳(メタデータ) (2021-03-23T13:25:55Z) - Applying Occam's Razor to Transformer-Based Dependency Parsing: What
Works, What Doesn't, and What is Really Necessary [9.347252855045125]
我々は,事前学習した埋め込みの選択と,グラフベースの依存性スキームでLSTM層を使用するかどうかについて検討する。
我々は,12言語中10言語に対して,新しい最先端の成果(LAS)を実現するため,シンプルだが広く適用可能なアーキテクチャと構成を提案する。
論文 参考訳(メタデータ) (2020-10-23T22:58:26Z) - Don't Parse, Insert: Multilingual Semantic Parsing with Insertion Based
Decoding [10.002379593718471]
成功した構文は、入力発話をシステムで容易に理解できる動作に変換する。
複雑な解析タスクに対して、最先端の手法は、解析を直接生成するためのシーケンスモデルへの自己回帰シーケンスに基づいている。
論文 参考訳(メタデータ) (2020-10-08T01:18:42Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - Parsing as Pretraining [13.03764728768944]
まず、コンストラクタと依存性解析をシーケンスタグとしてキャストする。
次に、単一のフィードフォワード層を使用して、ワードベクトルを線形化された木をエンコードするラベルに直接マッピングする。
論文 参考訳(メタデータ) (2020-02-05T08:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。