論文の概要: CLEAR: Cross-Lingual Enhancement in Alignment via Reverse-training
- arxiv url: http://arxiv.org/abs/2604.05821v2
- Date: Tue, 14 Apr 2026 08:05:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 14:01:13.120588
- Title: CLEAR: Cross-Lingual Enhancement in Alignment via Reverse-training
- Title(参考訳): CLEAR:リバーストレーニングによるアライメントの言語横断的強化
- Authors: Seungyoon Lee, Minhyuk Kim, Seongtae Hong, Youngjoon Jang, Dongsuk Oh, Heuiseok Lim,
- Abstract要約: クロスLingual Enhancement in Retrieval via Reverse-training (CLEAR) は、逆トレーニングスキームを用いて検索性能を向上させる新しい損失関数である。
CLEARは、特に低リソース言語で最大15%向上した、言語間シナリオの顕著な改善を実現している。
- 参考スコア(独自算出の注目度): 25.752819016822574
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing multilingual embedding models often encounter challenges in cross-lingual scenarios due to imbalanced linguistic resources and less consideration of cross-lingual alignment during training. Although standardized contrastive learning approaches for cross-lingual adaptation are widely adopted, they may struggle to capture fundamental alignment between languages and degrade performance in well-aligned languages such as English. To address these challenges, we propose Cross-Lingual Enhancement in Retrieval via Reverse-training (CLEAR), a novel loss function utilizing a reverse training scheme to improve retrieval performance across diverse cross-lingual retrieval scenarios. CLEAR leverages an English passage as a bridge to strengthen alignments between the target language and English, ensuring robust performance in the cross-lingual retrieval task. Our extensive experiments demonstrate that CLEAR achieves notable improvements in cross-lingual scenarios, with gains up to 15%, particularly in low-resource languages, while minimizing performance degradation in English. Furthermore, our findings highlight that CLEAR offers promising effectiveness even in multilingual training, suggesting its potential for broad application and scalability. We release the code at https://github.com/dltmddbs100/CLEAR.
- Abstract(参考訳): 既存の多言語埋め込みモデルは、不均衡な言語資源と訓練中の言語間アライメントの考慮が少なくなるため、言語間シナリオの課題に直面することが多い。
言語間適応のための標準化されたコントラスト学習アプローチは広く採用されているが、言語間の基本的な整合を捉え、英語のような整合性のある言語での性能を低下させるのに苦労する可能性がある。
これらの課題に対処するために,リバーストレーニング(CLEAR)による検索におけるクロスランガル強化を提案し,多様な言語間検索シナリオ間での検索性能を向上させるために,リバーストレーニングスキームを利用した新たな損失関数を提案する。
CLEARは、対象言語と英語のアライメントを強化するために、英語のパスをブリッジとして利用し、言語横断検索タスクにおける堅牢なパフォーマンスを保証する。
大規模な実験により、CLEARは言語間シナリオにおいて、特に低リソース言語で最大15%向上し、英語のパフォーマンス劣化を最小限に抑えながら、顕著な改善を実現していることが示された。
さらに,CLEARは多言語トレーニングにおいても有望な有効性を提供し,幅広いアプリケーションとスケーラビリティの可能性を示唆している。
コードについてはhttps://github.com/dltmddbs100/CLEAR.orgで公開しています。
関連論文リスト
- Code-Switching In-Context Learning for Cross-Lingual Transfer of Large Language Models [64.54005959758733]
我々は,コードスイッチング・イン・コンテキスト・ラーニング(CSICL)を,推論中の翻訳障壁を克服するための原則的かつ堅牢なアプローチとして導入する。
4つのLLM、6つのデータセット、10の言語にわたる広範な実験を行い、知識集約型ドメインと推論指向ドメインの両方にまたがる。
その結果、CSICLはX-ICLベースラインを一貫して上回り、ターゲット言語と見当たらない言語の両方で3.1%pと1.9%pを達成した。
論文 参考訳(メタデータ) (2025-10-07T08:35:42Z) - Cross-Lingual Pitfalls: Automatic Probing Cross-Lingual Weakness of Multilingual Large Language Models [55.14276067678253]
本稿では,Large Language Models (LLMs) における言語間関係の弱点を効率的に同定するための新しい手法を提案する。
この手法を用いて16言語で6,000以上のバイリンガルペアからなる新しいデータセットを構築し、最先端のモデルにおいても弱点を明らかにする効果を実証した。
さらに,言語的類似性と言語間の弱点との関係について検討し,言語的関連言語が類似した演奏パターンを共有することを明らかにした。
論文 参考訳(メタデータ) (2025-05-24T12:31:27Z) - Align, Generate, Learn: A Novel Closed-Loop Framework for Cross-Lingual In-Context Learning [0.0]
言語間インコンテキスト学習(XICL)は、多言語タスクに対処するために大規模言語モデル(LLM)を活用するための変換パラダイムとして登場した。
タスク関連事例を内部的に選択・活用するために, LLMの生成能力を活用する, 自己管理型フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-12T05:36:51Z) - Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
大規模言語モデル(LLM)における多言語機能向上のための新しいアプローチであるLensを提案する。
Lensは2つの部分空間で機能する: 言語に依存しない部分空間で、ターゲット言語と中心言語を一致させて強力な意味表現を継承する部分空間、言語固有の部分空間で、ターゲット言語と中心言語を分離して言語的特異性を保存する部分空間である。
レンズは、モデルの英語能力を維持しながら、多言語のパフォーマンスを著しく向上させ、既存の訓練後のアプローチと比べて計算コストの低い結果を得る。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - No Train but Gain: Language Arithmetic for training-free Language Adapters enhancement [59.37775534633868]
本稿では,学習不要な後処理が可能な言語演算法を提案する。
提案手法の有効性を,MAD-Xに基づく言語間スキームの3つの下流課題に適用した。
論文 参考訳(メタデータ) (2024-04-24T08:52:40Z) - CrossIn: An Efficient Instruction Tuning Approach for Cross-Lingual Knowledge Alignment [38.35458193262633]
英語中心のモデルは、通常他の言語では準最適である。
そこで本研究では,言語間命令チューニングデータの混合合成を利用したCrossInという新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-18T06:20:50Z) - RC3: Regularized Contrastive Cross-lingual Cross-modal Pre-training [84.23022072347821]
本稿では,弱整列型ビオテキスト入力の表現近接を制約する正規化言語間ビオテキストコントラスト学習目標を提案する。
6言語にまたがる5つの下流マルチモーダルタスクの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-13T14:41:05Z) - A Simple and Effective Method to Improve Zero-Shot Cross-Lingual
Transfer Learning [6.329304732560936]
既存のゼロショットのクロスリンガル転送法は、並列コーパスやバイリンガル辞書に依存している。
意味喪失のない仮想多言語埋め込みに英語の埋め込みを移すための埋め込み・プッシュ・アテンション・プル・ロバスト・ターゲットを提案する。
論文 参考訳(メタデータ) (2022-10-18T15:36:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。