Fugu-MT 論文翻訳(概要): The Devil Is in the Word Alignment Details: On Translation-Based Cross-Lingual Transfer for Token Classification Tasks

論文の概要: The Devil Is in the Word Alignment Details: On Translation-Based Cross-Lingual Transfer for Token Classification Tasks

arxiv url: http://arxiv.org/abs/2505.10507v1
Date: Thu, 15 May 2025 17:10:50 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-16 22:29:06.434013
Title: The Devil Is in the Word Alignment Details: On Translation-Based Cross-Lingual Transfer for Token Classification Tasks
Title（参考訳）: The Devil is in the Word Alignment details: On Translation-based Cross-Lingual Transfer for Token Classification Tasks (特集日本語)
Authors: Benedikt Ebing, Goran Glavaš,
Abstract要約: 低レベル設計決定がトークンレベルXLTに与える影響について検討する。最適化された選択により、XLT with WAは少なくともマーカーベースのメソッドに匹敵するパフォーマンスを提供する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Translation-based strategies for cross-lingual transfer XLT such as translate-train -- training on noisy target language data translated from the source language -- and translate-test -- evaluating on noisy source language data translated from the target language -- are competitive XLT baselines. In XLT for token classification tasks, however, these strategies include label projection, the challenging step of mapping the labels from each token in the original sentence to its counterpart(s) in the translation. Although word aligners (WAs) are commonly used for label projection, the low-level design decisions for applying them to translation-based XLT have not been systematically investigated. Moreover, recent marker-based methods, which project labeled spans by inserting tags around them before (or after) translation, claim to outperform WAs in label projection for XLT. In this work, we revisit WAs for label projection, systematically investigating the effects of low-level design decisions on token-level XLT: (i) the algorithm for projecting labels between (multi-)token spans, (ii) filtering strategies to reduce the number of noisily mapped labels, and (iii) the pre-tokenization of the translated sentences. We find that all of these substantially impact translation-based XLT performance and show that, with optimized choices, XLT with WA offers performance at least comparable to that of marker-based methods. We then introduce a new projection strategy that ensembles translate-train and translate-test predictions and demonstrate that it substantially outperforms the marker-based projection. Crucially, we show that our proposed ensembling also reduces sensitivity to low-level WA design choices, resulting in more robust XLT for token classification tasks.
Abstract（参考訳）: ソース言語から翻訳されたノイズの多いターゲット言語データのトレーニングであるtranslation-trainや、ターゲット言語から翻訳されたノイズの多いソース言語データを評価するtranslation-testといった、言語間のXLTのための翻訳ベースの戦略は、競合するXLTベースラインである。しかしながら、トークン分類タスクのXLTでは、これらの戦略にはラベルプロジェクションが含まれており、元の文のそれぞれのトークンから翻訳の相手(s)にラベルをマッピングする難しいステップである。単語整合子(WA)は一般にラベル投影に使用されるが、翻訳に基づくXLTに適用するための低レベル設計決定は体系的に研究されていない。さらに,XLTのラベルプロジェクションにおいて,タグを前後に挿入してラベル付けするマーカーベースの手法が,WAよりも優れていると主張している。本研究では,低レベル設計決定がトークンレベルXLTに与える影響を体系的に検討し,ラベルプロジェクションのためのWAを再検討する。 (i) (マルチ)トーケンスパン間のラベルを投影するアルゴリズム (二ノイズマップされたラベルの数を減らすためのフィルタリング方法、及び (三)翻訳文の事前翻訳これらすべてが翻訳ベースのXLT性能に大きく影響し、最適化された選択により、XLT with WAは少なくともマーカーベースの手法に匹敵する性能を提供することを示す。次に,トランスレーショナルトレインとトランスレーショナルテストの予測をアンサンブルする新しいプロジェクション戦略を導入し,マーカーベースプロジェクションを著しく上回ることを示す。重要なことに,提案手法は低レベルのWA設計選択に対する感度を低減し,トークン分類タスクにおいてより堅牢なXLTを実現する。

関連論文リスト

Constrained Decoding for Cross-lingual Label Projection [27.567195418950966]
ラベル付き学習データを持たない低リソース言語では,多言語 LLM を用いた言語間移動が一般的な学習パラダイムとなっている。しかし、単語やフレーズの微粒な予測を含むNLPタスクでは、ゼロショットの言語間移動学習は教師付き微調整法よりもはるかに遅れている。
論文参考訳（メタデータ） (2024-02-05T15:57:32Z)
Top-K Pooling with Patch Contrastive Learning for Weakly-Supervised Semantic Segmentation [25.628382644404066]
パッチコントラスト学習(TKP-PCL)を用いたトップKプーリングという新しいViTベースのWSSS手法を提案する。また,パッチ埋め込みを向上し,最終的な結果を改善するパッチコントラッシブエラー (PCE) も提案されている。当社のアプローチは非常に効率的で、PASCAL 2012データセットの他の最先端のWSSSメソッドよりも優れています。
論文参考訳（メタデータ） (2023-10-15T13:19:59Z)
Contextual Label Projection for Cross-Lingual Structured Prediction [103.55999471155104]
CLaPはテキストを対象言語に翻訳し、翻訳されたテキストをコンテキストとしてラベルにコンテキスト変換を行う。 39言語間のゼロショット言語間転送において,CLaPと他のラベル投影手法のベンチマークを行った。
論文参考訳（メタデータ） (2023-09-16T10:27:28Z)
Improving Self-training for Cross-lingual Named Entity Recognition with Contrastive and Prototype Learning [80.08139343603956]
言語横断的な実体認識において、自己学習は言語的ギャップを埋めるために一般的に用いられる。本研究では,表現学習と擬似ラベル改善を組み合わせることで,言語間NERの自己学習を改善することを目的とする。提案手法,すなわちContProtoは主に,(1)コントラスト型自己学習と(2)プロトタイプベース擬似ラベルの2つのコンポーネントから構成される。
論文参考訳（メタデータ） (2023-05-23T02:52:16Z)
Frustratingly Easy Label Projection for Cross-lingual Transfer [25.398772204761215]
いくつかの試みでは、簡単なマーク-then-translate法を用いて、共同で翻訳と投影を行っている。両手法の有効性と限界を評価するために,57言語および3つのタスク(QA,NER,イベント抽出)にまたがる実証的研究を行った。 EasyProjectと呼ばれる最適化された Mark-then-translate は、多くの言語に簡単に適用でき、驚くほどうまく機能し、より複雑な単語アライメントベースの手法よりも優れています。
論文参考訳（メタデータ） (2022-11-28T18:11:48Z)
CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文参考訳（メタデータ） (2022-10-13T13:32:36Z)
Unsupervised Cross-lingual Adaptation for Sequence Tagging and Beyond [58.80417796087894]
多言語事前訓練言語モデル(mPTLM)による言語間適応は、主にゼロショットアプローチと翻訳に基づくアプローチの2行からなる。本稿では、ゼロショットアプローチと翻訳に基づくアプローチを統合し、適応性能を向上させるための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2020-10-23T13:47:01Z)
PseudoSeg: Designing Pseudo Labels for Semantic Segmentation [78.35515004654553]
ラベルなしまたは弱いラベル付きデータを用いたトレーニングのための構造化された擬似ラベルを生成するための擬似ラベルの再設計を提案する。提案手法の有効性を,低データと高データの両方において示す。
論文参考訳（メタデータ） (2020-10-19T17:59:30Z)
FILTER: An Enhanced Fusion Method for Cross-lingual Language Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文参考訳（メタデータ） (2020-09-10T22:42:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。