論文の概要: Just Use XML: Revisiting Joint Translation and Label Projection
- arxiv url: http://arxiv.org/abs/2603.12021v1
- Date: Thu, 12 Mar 2026 15:01:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.164753
- Title: Just Use XML: Revisiting Joint Translation and Label Projection
- Title(参考訳): Just Use XML: Revisiting Joint Translation and Label Projection
- Authors: Thennal D K, Chris Biemann, Hans Ole Hatzel,
- Abstract要約: LabelPigeonは、XMLタグによる変換とラベルのプロジェクションを共同で実行する新しいフレームワークである。
LabelPigeonは11言語でベースラインを上回り,翻訳品質を積極的に向上させる。
27言語と3つの下流タスクにまたがって、NER上では+39.9 F1まで、同等の作業よりも言語間転送が大幅に向上したと報告している。
- 参考スコア(独自算出の注目度): 20.21221803121674
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Label projection is an effective technique for cross-lingual transfer, extending span-annotated datasets from a high-resource language to low-resource ones. Most approaches perform label projection as a separate step after machine translation, and prior work that combines the two reports degraded translation quality. We re-evaluate this claim with LabelPigeon, a novel framework that jointly performs translation and label projection via XML tags. We design a direct evaluation scheme for label projection, and find that LabelPigeon outperforms baselines and actively improves translation quality in 11 languages. We further assess translation quality across 203 languages and varying annotation complexity, finding consistent improvement attributed to additional fine-tuning. Finally, across 27 languages and three downstream tasks, we report substantial gains in cross-lingual transfer over comparable work, up to +39.9 F1 on NER. Overall, our results demonstrate that XML-tagged label projection provides effective and efficient label transfer without compromising translation quality.
- Abstract(参考訳): ラベルプロジェクションは、高リソース言語から低リソース言語へ、スパンアノテートされたデータセットを拡張した、言語間転送の効果的なテクニックである。
ほとんどの手法は、機械翻訳後の別のステップとしてラベルプロジェクションを実行し、2つのレポートが翻訳品質を劣化させる前の作業を行う。
この主張を、XMLタグによる翻訳とラベルのプロジェクションを共同で実行する新しいフレームワークであるLabelPigeonで再評価する。
ラベルプロジェクションの直接評価手法を設計し,11言語でベースラインを上回り,翻訳品質を積極的に向上することを確認した。
さらに、203言語間の翻訳品質とアノテーションの複雑さを評価し、追加の微調整による一貫した改善を見出す。
最後に、27言語と3つのダウンストリームタスクにまたがって、同等の作業に対して言語間転送が大幅に増加し、NERでは+39.9 F1に達することを報告します。
全体として,XMLタグ付きラベルプロジェクションは,翻訳品質を損なうことなく,効率的かつ効率的なラベル転送を実現することを示す。
関連論文リスト
- Constrained Decoding for Cross-lingual Label Projection [27.567195418950966]
ラベル付き学習データを持たない低リソース言語では,多言語 LLM を用いた言語間移動が一般的な学習パラダイムとなっている。
しかし、単語やフレーズの微粒な予測を含むNLPタスクでは、ゼロショットの言語間移動学習は教師付き微調整法よりもはるかに遅れている。
論文 参考訳(メタデータ) (2024-02-05T15:57:32Z) - Contextual Label Projection for Cross-Lingual Structured Prediction [103.55999471155104]
CLaPはテキストを対象言語に翻訳し、翻訳されたテキストをコンテキストとしてラベルにコンテキスト変換を行う。
39言語間のゼロショット言語間転送において,CLaPと他のラベル投影手法のベンチマークを行った。
論文 参考訳(メタデータ) (2023-09-16T10:27:28Z) - T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - Improving Self-training for Cross-lingual Named Entity Recognition with
Contrastive and Prototype Learning [80.08139343603956]
言語横断的な実体認識において、自己学習は言語的ギャップを埋めるために一般的に用いられる。
本研究では,表現学習と擬似ラベル改善を組み合わせることで,言語間NERの自己学習を改善することを目的とする。
提案手法,すなわちContProtoは主に,(1)コントラスト型自己学習と(2)プロトタイプベース擬似ラベルの2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-05-23T02:52:16Z) - Frustratingly Easy Label Projection for Cross-lingual Transfer [25.398772204761215]
いくつかの試みでは、簡単なマーク-then-translate法を用いて、共同で翻訳と投影を行っている。
両手法の有効性と限界を評価するために,57言語および3つのタスク(QA,NER,イベント抽出)にまたがる実証的研究を行った。
EasyProjectと呼ばれる最適化された Mark-then-translate は、多くの言語に簡単に適用でき、驚くほどうまく機能し、より複雑な単語アライメントベースの手法よりも優れています。
論文 参考訳(メタデータ) (2022-11-28T18:11:48Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。