論文の概要: The Devil Is in the Word Alignment Details: On Translation-Based Cross-Lingual Transfer for Token Classification Tasks
- arxiv url: http://arxiv.org/abs/2505.10507v1
- Date: Thu, 15 May 2025 17:10:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.434013
- Title: The Devil Is in the Word Alignment Details: On Translation-Based Cross-Lingual Transfer for Token Classification Tasks
- Title(参考訳): The Devil is in the Word Alignment details: On Translation-based Cross-Lingual Transfer for Token Classification Tasks (特集 日本語)
- Authors: Benedikt Ebing, Goran Glavaš,
- Abstract要約: 低レベル設計決定がトークンレベルXLTに与える影響について検討する。
最適化された選択により、XLT with WAは少なくともマーカーベースのメソッドに匹敵するパフォーマンスを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Translation-based strategies for cross-lingual transfer XLT such as translate-train -- training on noisy target language data translated from the source language -- and translate-test -- evaluating on noisy source language data translated from the target language -- are competitive XLT baselines. In XLT for token classification tasks, however, these strategies include label projection, the challenging step of mapping the labels from each token in the original sentence to its counterpart(s) in the translation. Although word aligners (WAs) are commonly used for label projection, the low-level design decisions for applying them to translation-based XLT have not been systematically investigated. Moreover, recent marker-based methods, which project labeled spans by inserting tags around them before (or after) translation, claim to outperform WAs in label projection for XLT. In this work, we revisit WAs for label projection, systematically investigating the effects of low-level design decisions on token-level XLT: (i) the algorithm for projecting labels between (multi-)token spans, (ii) filtering strategies to reduce the number of noisily mapped labels, and (iii) the pre-tokenization of the translated sentences. We find that all of these substantially impact translation-based XLT performance and show that, with optimized choices, XLT with WA offers performance at least comparable to that of marker-based methods. We then introduce a new projection strategy that ensembles translate-train and translate-test predictions and demonstrate that it substantially outperforms the marker-based projection. Crucially, we show that our proposed ensembling also reduces sensitivity to low-level WA design choices, resulting in more robust XLT for token classification tasks.
- Abstract(参考訳): ソース言語から翻訳されたノイズの多いターゲット言語データのトレーニングであるtranslation-trainや、ターゲット言語から翻訳されたノイズの多いソース言語データを評価するtranslation-testといった、言語間のXLTのための翻訳ベースの戦略は、競合するXLTベースラインである。
しかしながら、トークン分類タスクのXLTでは、これらの戦略にはラベルプロジェクションが含まれており、元の文のそれぞれのトークンから翻訳の相手(s)にラベルをマッピングする難しいステップである。
単語整合子(WA)は一般にラベル投影に使用されるが、翻訳に基づくXLTに適用するための低レベル設計決定は体系的に研究されていない。
さらに,XLTのラベルプロジェクションにおいて,タグを前後に挿入してラベル付けするマーカーベースの手法が,WAよりも優れていると主張している。
本研究では,低レベル設計決定がトークンレベルXLTに与える影響を体系的に検討し,ラベルプロジェクションのためのWAを再検討する。
(i) (マルチ)トーケンスパン間のラベルを投影するアルゴリズム
(二 ノイズマップされたラベルの数を減らすためのフィルタリング方法、及び
(三)翻訳文の事前翻訳
これらすべてが翻訳ベースのXLT性能に大きく影響し、最適化された選択により、XLT with WAは少なくともマーカーベースの手法に匹敵する性能を提供することを示す。
次に,トランスレーショナルトレインとトランスレーショナルテストの予測をアンサンブルする新しいプロジェクション戦略を導入し,マーカーベースプロジェクションを著しく上回ることを示す。
重要なことに,提案手法は低レベルのWA設計選択に対する感度を低減し,トークン分類タスクにおいてより堅牢なXLTを実現する。
関連論文リスト
- Constrained Decoding for Cross-lingual Label Projection [27.567195418950966]
ラベル付き学習データを持たない低リソース言語では,多言語 LLM を用いた言語間移動が一般的な学習パラダイムとなっている。
しかし、単語やフレーズの微粒な予測を含むNLPタスクでは、ゼロショットの言語間移動学習は教師付き微調整法よりもはるかに遅れている。
論文 参考訳(メタデータ) (2024-02-05T15:57:32Z) - Contextual Label Projection for Cross-Lingual Structured Prediction [103.55999471155104]
CLaPはテキストを対象言語に翻訳し、翻訳されたテキストをコンテキストとしてラベルにコンテキスト変換を行う。
39言語間のゼロショット言語間転送において,CLaPと他のラベル投影手法のベンチマークを行った。
論文 参考訳(メタデータ) (2023-09-16T10:27:28Z) - Frustratingly Easy Label Projection for Cross-lingual Transfer [25.398772204761215]
いくつかの試みでは、簡単なマーク-then-translate法を用いて、共同で翻訳と投影を行っている。
両手法の有効性と限界を評価するために,57言語および3つのタスク(QA,NER,イベント抽出)にまたがる実証的研究を行った。
EasyProjectと呼ばれる最適化された Mark-then-translate は、多くの言語に簡単に適用でき、驚くほどうまく機能し、より複雑な単語アライメントベースの手法よりも優れています。
論文 参考訳(メタデータ) (2022-11-28T18:11:48Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - PseudoSeg: Designing Pseudo Labels for Semantic Segmentation [78.35515004654553]
ラベルなしまたは弱いラベル付きデータを用いたトレーニングのための構造化された擬似ラベルを生成するための擬似ラベルの再設計を提案する。
提案手法の有効性を,低データと高データの両方において示す。
論文 参考訳(メタデータ) (2020-10-19T17:59:30Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。