論文の概要: Frustratingly Easy Label Projection for Cross-lingual Transfer
- arxiv url: http://arxiv.org/abs/2211.15613v5
- Date: Mon, 28 Oct 2024 17:03:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:37:55.451507
- Title: Frustratingly Easy Label Projection for Cross-lingual Transfer
- Title(参考訳): 言語間移動のためのフラストレーションやすいラベル投影法
- Authors: Yang Chen, Chao Jiang, Alan Ritter, Wei Xu,
- Abstract要約: いくつかの試みでは、簡単なマーク-then-translate法を用いて、共同で翻訳と投影を行っている。
両手法の有効性と限界を評価するために,57言語および3つのタスク(QA,NER,イベント抽出)にまたがる実証的研究を行った。
EasyProjectと呼ばれる最適化された Mark-then-translate は、多くの言語に簡単に適用でき、驚くほどうまく機能し、より複雑な単語アライメントベースの手法よりも優れています。
- 参考スコア(独自算出の注目度): 25.398772204761215
- License:
- Abstract: Translating training data into many languages has emerged as a practical solution for improving cross-lingual transfer. For tasks that involve span-level annotations, such as information extraction or question answering, an additional label projection step is required to map annotated spans onto the translated texts. Recently, a few efforts have utilized a simple mark-then-translate method to jointly perform translation and projection by inserting special markers around the labeled spans in the original sentence. However, as far as we are aware, no empirical analysis has been conducted on how this approach compares to traditional annotation projection based on word alignment. In this paper, we present an extensive empirical study across 57 languages and three tasks (QA, NER, and Event Extraction) to evaluate the effectiveness and limitations of both methods, filling an important gap in the literature. Experimental results show that our optimized version of mark-then-translate, which we call EasyProject, is easily applied to many languages and works surprisingly well, outperforming the more complex word alignment-based methods. We analyze several key factors that affect the end-task performance, and show EasyProject works well because it can accurately preserve label span boundaries after translation. We will publicly release all our code and data.
- Abstract(参考訳): 学習データを多くの言語に翻訳することは、言語間移動を改善するための実践的な解決策として現れてきた。
情報抽出や質問応答などのスパンレベルのアノテーションを含むタスクには、注釈付きスパンを翻訳されたテキストにマッピングするために追加のラベル投影ステップが必要である。
近年, ラベル付きスパンの周囲に特別なマーカーを挿入することにより, 翻訳と投影を共同で行うための簡易なマーク列翻訳法が試みられている。
しかし、我々の知る限り、この手法が単語アライメントに基づく従来のアノテーション投影とどのように比較されるかについては、実証的な分析は行われていない。
本稿では,57言語および3つのタスク(QA,NER,イベント抽出)にまたがる広範な実証的研究を行い,両手法の有効性と限界を評価し,文献における重要なギャップを埋める。
実験結果から,我々はEasyProjectと呼ぶマーク-then-translateの最適化版を多くの言語に適用しやすく,驚くほどうまく動作し,より複雑な単語アライメント方式よりも優れていることがわかった。
エンドタスクのパフォーマンスに影響を与えるいくつかの重要な要因を分析し、翻訳後のラベルスパン境界を正確に保存できるので、EasyProjectがうまく機能することを示す。
すべてのコードとデータを公開します。
関連論文リスト
- Improving Multi-lingual Alignment Through Soft Contrastive Learning [9.454626745893798]
本稿では,事前学習した単言語埋め込みモデルによって測定された文の類似性に基づいて,多言語埋め込みを整合させる新しい手法を提案する。
翻訳文ペアが与えられた場合、言語間埋め込み間の類似性は、単言語教師モデルで測定された文の類似性に従うように、多言語モデルを訓練する。
論文 参考訳(メタデータ) (2024-05-25T09:46:07Z) - Cross-lingual Contextualized Phrase Retrieval [63.80154430930898]
そこで本研究では,言語間関係の単語検索を多義的に行うタスクの定式化を提案する。
我々は、コントラスト学習を用いて、言語間コンテクスト対応句検索(CCPR)を訓練する。
フレーズ検索タスクでは、CCPRはベースラインをかなり上回り、少なくとも13ポイント高いトップ1の精度を達成する。
論文 参考訳(メタデータ) (2024-03-25T14:46:51Z) - Constrained Decoding for Cross-lingual Label Projection [27.567195418950966]
ラベル付き学習データを持たない低リソース言語では,多言語 LLM を用いた言語間移動が一般的な学習パラダイムとなっている。
しかし、単語やフレーズの微粒な予測を含むNLPタスクでは、ゼロショットの言語間移動学習は教師付き微調整法よりもはるかに遅れている。
論文 参考訳(メタデータ) (2024-02-05T15:57:32Z) - Contextual Label Projection for Cross-Lingual Structured Prediction [103.55999471155104]
CLaPはテキストを対象言語に翻訳し、翻訳されたテキストをコンテキストとしてラベルにコンテキスト変換を行う。
39言語間のゼロショット言語間転送において,CLaPと他のラベル投影手法のベンチマークを行った。
論文 参考訳(メタデータ) (2023-09-16T10:27:28Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - Statistical and Neural Methods for Cross-lingual Entity Label Mapping in
Knowledge Graphs [4.466084612775998]
ウィキデータから抽出した言語間エンティティラベルを10言語でアライメントするための単語と文のアライメント手法の適用について検討する。
この結果から,Wikidata の主要なラベル間のマッピングは,採用手法によって大幅に改善(F1スコアの20ドルポイントまで)されていることが示唆された。
論文 参考訳(メタデータ) (2022-06-17T11:57:08Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。