論文の概要: XITE: Cross-lingual Interpolation for Transfer using Embeddings
- arxiv url: http://arxiv.org/abs/2604.23589v1
- Date: Sun, 26 Apr 2026 07:54:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.450967
- Title: XITE: Cross-lingual Interpolation for Transfer using Embeddings
- Title(参考訳): XITE:埋め込みを用いた言語間相互補間
- Authors: Barah Fazili, Preethi Jyothi,
- Abstract要約: 言語モデルの言語間移動は依然として重要な課題である。
我々はXITEと呼ばれる埋め込み型データ拡張手法を提案する。
XITEは感情分析に最大35.91%、自然言語推論に最大81.16%の大幅な改善をもたらす。
- 参考スコア(独自算出の注目度): 29.76348541571332
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Facilitating cross-lingual transfer in multilingual language models remains a critical challenge. Towards this goal, we propose an embedding-based data augmentation technique called XITE. We start with unlabeled text from a low-resource target language, identify an English counterpart in a task-specific training corpus using embedding-based similarities and adopt its label. Next, we perform a simple interpolation of the source and target embeddings to create synthetic data for task-specific fine-tuning. Projecting the target text into a language-rich subspace using linear discriminant analysis (LDA), prior to interpolation, further boosts performance. Our cross-lingual embedding-based augmentation technique XITE yields significant improvements of up to 35.91% for sentiment analysis and up to 81.16% for natural language inference, using XLM-R, for a diverse set of target languages including Korean, Arabic, Urdu and Hindi. Apart from boosting cross-lingual transfer, adaptation using XITE also safeguards against forgetting and maintains task performance on the high-resource language.
- Abstract(参考訳): 多言語言語モデルにおける言語間移動の実現は依然として重要な課題である。
そこで本研究では,XITEと呼ばれる埋め込み型データ拡張手法を提案する。
まず、低リソースのターゲット言語からのラベル付きテキストから始め、埋め込みベースの類似性を用いてタスク固有のトレーニングコーパスで英語のテキストを識別し、そのラベルを採用する。
次に、ソースとターゲットの埋め込みの簡単な補間を行い、タスク固有の微調整のための合成データを作成する。
線形識別分析(LDA)を用いて、対象のテキストを言語に富んだ部分空間に投影すると、補間前にさらに性能が向上する。
我々の言語間埋め込みに基づく拡張手法であるXITEは、感情分析において最大35.91%、XLM-Rを用いた自然言語推論では最大81.16%、韓国語、アラビア語、ウルドゥー語、ヒンディー語など様々なターゲット言語に対して大幅に改善されている。
XITEを使用した適応は、言語間転送の促進とは別に、高リソース言語でのタスクパフォーマンスの忘れと維持に対する保護でもある。
関連論文リスト
- USTCCTSU at SemEval-2024 Task 1: Reducing Anisotropy for Cross-lingual Semantic Textual Relatedness Task [17.905282052666333]
言語間セマンティックテキスト関連性タスクは,言語間コミュニケーションやテキスト理解における課題に対処する重要な研究課題である。
これは、機械翻訳、多言語情報検索、言語間テキスト理解といった下流タスクに不可欠な、異なる言語間のセマンティックな接続を確立するのに役立つ。
当社のアプローチでは、スペインで2位、インドネシアで3位、そしてトップ10の複数のエントリーが、コンペティションのトラックCで行われます。
論文 参考訳(メタデータ) (2024-11-28T08:40:14Z) - Cross-lingual Back-Parsing: Utterance Synthesis from Meaning Representation for Zero-Resource Semantic Parsing [6.074150063191985]
Cross-Lingual Back-Parsing(クロスリンガル・バック・パーシング)は、セマンティック・パーシングのためのクロスリンガル・トランスファーを強化するために設計された新しいデータ拡張手法である。
提案手法は,ゼロリソース設定に挑戦する上で,言語間データ拡張を効果的に行う。
論文 参考訳(メタデータ) (2024-10-01T08:53:38Z) - Self-Augmentation Improves Zero-Shot Cross-Lingual Transfer [92.80671770992572]
言語間移動は多言語NLPにおける中心的なタスクである。
このタスクの以前の作業では、並列コーパス、バイリンガル辞書、その他の注釈付きアライメントデータを使用していた。
ゼロショットの言語間移動を改善するため, 単純で効果的なSALT法を提案する。
論文 参考訳(メタデータ) (2023-09-19T19:30:56Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - CL-XABSA: Contrastive Learning for Cross-lingual Aspect-based Sentiment
Analysis [4.60495447017298]
本稿では,言語横断的アスペクトベース知覚分析のためのコントラスト学習フレームワークCL-XABSAを提案する。
具体的には、トークン埋め込み(TL-CTE)のトークンレベルのコントラスト学習とトークン埋め込み(SL-CTE)の感情レベルのコントラスト学習という2つのコントラスト戦略を設計する。
我々のフレームワークは訓練中に複数の言語でデータセットを受信できるので、XABSAタスクだけでなく、マルチリンガルなアスペクトベースの感情分析(MABSA)にも適用できます。
論文 参考訳(メタデータ) (2022-04-02T07:40:03Z) - XeroAlign: Zero-Shot Cross-lingual Transformer Alignment [9.340611077939828]
XLM-Rなどのクロスリンガルプリトレーニングトランスのタスク固有アライメント法について紹介する。
XeroAlignは翻訳されたタスクデータを使用して、モデルが異なる言語の同様の文埋め込みを生成するよう促します。
XLM-RAのテキスト分類精度はラベル付きデータで訓練されたXLM-Rよりも優れており、言語間対数パラフレーズタスクにおける最先端のモデルと同等である。
論文 参考訳(メタデータ) (2021-05-06T07:10:00Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。