Fugu-MT 論文翻訳(概要): MRL Parsing Without Tears: The Case of Hebrew

論文の概要: MRL Parsing Without Tears: The Case of Hebrew

arxiv url: http://arxiv.org/abs/2403.06970v1
Date: Mon, 11 Mar 2024 17:54:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-12 17:46:42.711815
Title: MRL Parsing Without Tears: The Case of Hebrew
Title（参考訳）: 涙のないMRL解析 : ヘブライ語の場合
Authors: Shaltiel Shmidman, Avi Shmidman, Moshe Koppel, Reut Tsarfaty
Abstract要約: 形態的にリッチな言語(MRL)では、トークンごとに複数の語彙単位を識別する必要があるが、既存のシステムはレイテンシとセットアップの複雑さに悩まされている。決定は、専門家の分類器によって、各ユニットが1つの特定のタスクに特化して行われる。この信じられないほど高速なアプローチは、HebrewのPOSタグ付けと依存性解析に新しいSOTAを設定し、他のHebrewタスクではほぼSOTAのパフォーマンスを実現している。
参考スコア（独自算出の注目度）: 14.104766026682384
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Syntactic parsing remains a critical tool for relation extraction and information extraction, especially in resource-scarce languages where LLMs are lacking. Yet in morphologically rich languages (MRLs), where parsers need to identify multiple lexical units in each token, existing systems suffer in latency and setup complexity. Some use a pipeline to peel away the layers: first segmentation, then morphology tagging, and then syntax parsing; however, errors in earlier layers are then propagated forward. Others use a joint architecture to evaluate all permutations at once; while this improves accuracy, it is notoriously slow. In contrast, and taking Hebrew as a test case, we present a new "flipped pipeline": decisions are made directly on the whole-token units by expert classifiers, each one dedicated to one specific task. The classifiers are independent of one another, and only at the end do we synthesize their predictions. This blazingly fast approach sets a new SOTA in Hebrew POS tagging and dependency parsing, while also reaching near-SOTA performance on other Hebrew NLP tasks. Because our architecture does not rely on any language-specific resources, it can serve as a model to develop similar parsers for other MRLs.
Abstract（参考訳）: 構文解析は関係抽出や情報抽出にとって重要なツールであり、特にLLMが欠落している資源に乏しい言語ではなお重要である。しかし、各トークン内の複数の語彙単位をパーサが識別する必要がある形態学的にリッチな言語(MRL)では、既存のシステムはレイテンシとセットアップの複雑さに悩まされる。まず、セグメンテーション、次に形態素タグ付け、そして構文解析である。しかし、以前のレイヤのエラーは、前方に伝播する。他のアーキテクチャでは、すべての置換を一度に評価するためにジョイントアーキテクチャを使用するが、精度は向上するが、明らかに遅い。それとは対照的に、ヘブライ語をテストケースとして、私たちは新しい"フリップパイプライン(flipped pipeline)"を提示します。分類器は互いに独立しており、最後にはそれらの予測を合成する。この驚くほど高速なアプローチは、ヘブライのPOSタグ付けと依存性解析に新たなSOTAを設定し、他のヘブライのNLPタスクではほぼSOTAのパフォーマンスを実現している。我々のアーキテクチャは言語固有のリソースに依存しないので、他のMRLと同様のパーサを開発するモデルとして機能する。

関連論文リスト

Training Neural Networks as Recognizers of Formal Languages [87.06906286950438]
形式言語理論は、特に認識者に関するものである。代わりに、非公式な意味でのみ類似したプロキシタスクを使用するのが一般的である。ニューラルネットワークを文字列のバイナリ分類器として直接訓練し評価することで、このミスマッチを補正する。
論文参考訳（メタデータ） (2024-11-11T16:33:25Z)
MAGNET: Improving the Multilingual Fairness of Language Models with Adaptive Gradient-Based Tokenization [81.83460411131931]
マルチ言語設定では、非ラテン語スクリプトと低リソース言語は通常、言語モデルの実用性、効率、コストの点で不利である。適応的勾配に基づくサブワードトークン化による過分割を低減するために,多言語適応型勾配ベーストークン化を提案する。
論文参考訳（メタデータ） (2024-07-11T18:59:21Z)
A Truly Joint Neural Architecture for Segmentation and Parsing [15.866519123942457]
形態的リッチ言語(MRL)の性能は他の言語よりも低い。空間的に制限された入力トークンのモルフォロジーの複雑さとあいまいさのため、ツリーのノードとして機能する言語単位は事前に分かっていない。本稿では,入力のすべての形態的あいまいさを保存する格子型表現をアーク分解モデルに提供し,その形態的・構文的解析タスクを一度に解く,結合型ニューラルアーキテクチャを提案する。
論文参考訳（メタデータ） (2024-02-04T16:56:08Z)
Multilingual Sequence-to-Sequence Models for Hebrew NLP [16.010560946005473]
シーケンス・ツー・シーケンス生成アーキテクチャはヘブライ語のような形態的にリッチな言語(MRL)により適していることを示す。我々は,ヘブライ語NLPパイプラインのタスクをテキスト・テキスト・タスクとしてキャストすることで,マルチリンガルで事前訓練されたシーケンス・ツー・シーケンスモデルをmT5として活用できることを実証した。
論文参考訳（メタデータ） (2022-12-19T18:10:23Z)
Zero-Shot Cross-lingual Semantic Parsing [56.95036511882921]
7つのテスト言語に対する並列データを持たないゼロショット問題として,言語間セマンティックパーシングについて検討した。英文論理形式ペアデータのみを用いて解析知識を付加言語に転送するマルチタスクエンコーダデコーダモデルを提案する。このシステムは、ゼロショット解析を潜時空間アライメント問題としてフレーム化し、事前訓練されたモデルを改善し、最小のクロスリンガル転送ペナルティで論理形式を生成することができる。
論文参考訳（メタデータ） (2021-04-15T16:08:43Z)
Low-Resource Task-Oriented Semantic Parsing via Intrinsic Modeling [65.51280121472146]
私たちは本質的にオントロジーラベルについて知っているものを利用して、効率的なセマンティック解析モデルを構築します。我々のモデルはTOPv2から派生した低リソースのベンチマークを用いて高効率である。
論文参考訳（メタデータ） (2021-04-15T04:01:02Z)
Multilingual Autoregressive Entity Linking [49.35994386221958]
mGENREはMultilingual Entity Linking問題のためのシーケンス対シーケンスシステムである。与えられた言語で言及すると、mGENREはターゲットエンティティの名前を左から右へ、トークンごとに予測します。提案手法の有効性を3つのMELベンチマーク実験を含む広範囲な評価により示す。
論文参考訳（メタデータ） (2021-03-23T13:25:55Z)
Applying Occam's Razor to Transformer-Based Dependency Parsing: What Works, What Doesn't, and What is Really Necessary [9.347252855045125]
我々は,事前学習した埋め込みの選択と,グラフベースの依存性スキームでLSTM層を使用するかどうかについて検討する。我々は,12言語中10言語に対して,新しい最先端の成果(LAS)を実現するため,シンプルだが広く適用可能なアーキテクチャと構成を提案する。
論文参考訳（メタデータ） (2020-10-23T22:58:26Z)
Don't Parse, Insert: Multilingual Semantic Parsing with Insertion Based Decoding [10.002379593718471]
成功した構文は、入力発話をシステムで容易に理解できる動作に変換する。複雑な解析タスクに対して、最先端の手法は、解析を直接生成するためのシーケンスモデルへの自己回帰シーケンスに基づいている。
論文参考訳（メタデータ） (2020-10-08T01:18:42Z)
FILTER: An Enhanced Fusion Method for Cross-lingual Language Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文参考訳（メタデータ） (2020-09-10T22:42:15Z)
Parsing as Pretraining [13.03764728768944]
まず、コンストラクタと依存性解析をシーケンスタグとしてキャストする。次に、単一のフィードフォワード層を使用して、ワードベクトルを線形化された木をエンコードするラベルに直接マッピングする。
論文参考訳（メタデータ） (2020-02-05T08:43:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。