論文の概要: CC-Tuning: A Cross-Lingual Connection Mechanism for Improving Joint Multilingual Supervised Fine-Tuning
- arxiv url: http://arxiv.org/abs/2506.00875v1
- Date: Sun, 01 Jun 2025 07:20:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.688319
- Title: CC-Tuning: A Cross-Lingual Connection Mechanism for Improving Joint Multilingual Supervised Fine-Tuning
- Title(参考訳): CC-Tuning:多言語同時監視ファインチューニング改善のための言語間接続機構
- Authors: Yangfan Ye, Xiaocheng Feng, Zekun Yuan, Xiachong Feng, Libo Qin, Lei Huang, Weitao Ma, Yichong Huang, Zhirui Zhang, Yunfei Lu, Xiaohui Yan, Duyu Tang, Dandan Tu, Bing Qin,
- Abstract要約: CC-Tuningは、多言語間接続機構を潜在レベルで明確に確立する、新しい多言語ファインチューニングパラダイムである。
訓練中、CC-Tuningは英語と非英語の両方からのフィードフォワードアクティベーションを融合させ、モデルが両方の言語資源の恩恵を受けることを可能にする。
22の言語をカバーする6つのベンチマークの実験では、CC-TuningはバニラSFTより優れており、データレベルの拡張方法に代わる強力な潜在レベルを提供する。
- 参考スコア(独自算出の注目度): 48.69343479132896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current large language models (LLMs) often exhibit imbalanced multilingual capabilities due to their English-centric training corpora. To address this, existing fine-tuning approaches operating at the data-level (e.g., through data augmentation or distillation) typically introduce implicit cross-lingual alignment, overlooking the potential for more profound, latent-level cross-lingual interactions. In this work, we propose CC-Tuning, a novel multilingual fine-tuning paradigm that explicitly establishes a cross-lingual connection mechanism at the latent level. During training, CC-Tuning fuses the feed forward activations from both English and non-English inputs, enabling the model to benefit from both linguistic resources. This process is facilitated with a trainable Decision Maker that identifies beneficial activations. Furthermore, during inference, a Transform Matrix is utilized to simulate the cross-lingual connection under monolingual setting through representation transformation. Our experiments on six benchmarks covering 22 languages show that CC-Tuning outperforms vanilla SFT and offers a strong latent-level alternative to data-level augmentation methods. Further analysis also highlights the practicality of CC-Tuning and the potential of latent-level cross-lingual interactions in advancing the multilingual performance of LLMs.
- Abstract(参考訳): 現在の大規模言語モデル(LLM)は英語中心の訓練コーパスのため、しばしば不均衡な多言語機能を示す。
これを解決するために、データレベルで動作している既存の微調整アプローチ(例えば、データ拡張または蒸留)は、一般的に暗黙の言語間アライメントを導入し、より深い潜在レベルの言語間相互作用の可能性を見越す。
本研究では,多言語間接続機構を潜在レベルで明確に確立する,新しい多言語ファインチューニングパラダイムであるCC-Tuningを提案する。
訓練中、CC-Tuningは英語と非英語の両方からのフィードフォワードアクティベーションを融合させ、モデルが両方の言語資源の恩恵を受けることを可能にする。
このプロセスは、有益なアクティベーションを識別するトレーニング可能なDecision Makerによって促進される。
さらに、推論中は、変換行列を用いて、表現変換を通じてモノリンガル設定下での言語間接続をシミュレートする。
22言語を対象とした6つのベンチマーク実験により、CC-TuningはバニラSFTより優れており、データレベルの拡張手法に強力な潜在レベル代替手段を提供することが示された。
さらなる分析は、LCMの多言語性能向上におけるCC-Tuningの実用性と、潜在レベルの言語間相互作用の可能性を強調している。
関連論文リスト
- Exploring Cross-lingual Latent Transplantation: Mutual Opportunities and Open Challenges [48.96952594416528]
現在の大規模言語モデル(LLM)は多言語能力と文化的適応性に不均衡を示すことが多い。
XTransplantフレームワークは、言語間で潜在的なアクティベーションを移植することで、英語と非英語のリソースの相補的な長所を利用することができる。
論文 参考訳(メタデータ) (2024-12-17T09:05:30Z) - Code-Switching Curriculum Learning for Multilingual Transfer in LLMs [43.85646680303273]
大規模言語モデル(LLM)は、様々なタスクにおいて、ほぼ人間レベルのパフォーマンスを示すが、その性能は、少数の高リソース言語の後、劇的に低下する。
第2言語習得の人的プロセスに触発されて,LLMの言語間移動を促進するためのCSCL(Code-Switching Curchical Learning)を提案する。
CSCLは,1)トークンレベルのコードスイッチング,2)文レベルのコードスイッチング,3)単言語コーパスからなるカリキュラムを用いて,段階的にモデルを訓練することで,人間の言語学習の段階を模倣する。
論文 参考訳(メタデータ) (2024-11-04T06:31:26Z) - Extracting and Transferring Abilities For Building Multi-lingual Ability-enhanced Large Language Models [104.96990850774566]
我々は,MAETと命名された多言語能力抽出と伝達手法を提案する。
我々のキーとなる考え方は、大きな言語モデルから言語に依存しない能力に関する重みを分解し抽出することである。
実験の結果,MAETは高度能力の抽出と伝達を効果的に行うことができることがわかった。
論文 参考訳(メタデータ) (2024-10-10T11:23:18Z) - Probing the Emergence of Cross-lingual Alignment during LLM Training [10.053333786023089]
多言語大言語モデル(LLM)は、ゼロショットの多言語間転送性能を著しく向上させる。
本研究では,LLMの事前学習において,このような言語間アライメントがどのように出現するかを検討する。
ニューロンの重なり合いと下流性能の相関関係を観察する。
論文 参考訳(メタデータ) (2024-06-19T05:31:59Z) - Cross-lingual QA: A Key to Unlocking In-context Cross-lingual Performance [2.371686365695081]
クロスランガルQAは、質問と回答の部分のみを翻訳し、翻訳コストを削減できる言語間プロンプト手法である。
4つのタイプ的多言語ベンチマークの実験により、クロスランガルQAはモデルに効果的に刺激を与え、クロスランガルの知識を引き出すことを示した。
本研究は,言語間実例を用いたオープンソースMLLMの高速化により,モデルスケールの増大に伴い,性能が向上することを示す。
論文 参考訳(メタデータ) (2023-05-24T15:14:49Z) - VECO 2.0: Cross-lingual Language Model Pre-training with
Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。
具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。
トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文 参考訳(メタデータ) (2023-04-17T12:23:41Z) - Learning Multilingual Representation for Natural Language Understanding
with Enhanced Cross-Lingual Supervision [42.724921817550516]
そこで本稿では,MAの代替として,DA(Decomposed attention)というネットワークを提案する。
DAは言語内注意(IA)と言語間注意(CA)から構成されており、それぞれ言語内および言語間監督をモデル化している。
様々な言語間自然言語理解タスクの実験により、提案したアーキテクチャと学習戦略がモデルの言語間移動性を大幅に改善することが示された。
論文 参考訳(メタデータ) (2021-06-09T16:12:13Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。