論文の概要: Bridging the Language Gaps in Large Language Models with Inference-Time Cross-Lingual Intervention
- arxiv url: http://arxiv.org/abs/2410.12462v1
- Date: Wed, 16 Oct 2024 11:23:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:42:44.236272
- Title: Bridging the Language Gaps in Large Language Models with Inference-Time Cross-Lingual Intervention
- Title(参考訳): 推論時言語間干渉による大規模言語モデルにおける言語ギャップのブリッジ
- Authors: Weixuan Wang, Minghao Wu, Barry Haddow, Alexandra Birch,
- Abstract要約: 大規模言語モデル(LLM)は自然言語処理において顕著な能力を示している。
LLMは異なる言語間で大きな性能差を示す。
Inference-Time Cross-Lingual Intervention (INCLINE) を提案する。
- 参考スコア(独自算出の注目度): 71.12193680015622
- License:
- Abstract: Large Language Models (LLMs) have shown remarkable capabilities in natural language processing but exhibit significant performance gaps among different languages. Most existing approaches to address these disparities rely on pretraining or fine-tuning, which are resource-intensive. To overcome these limitations without incurring significant costs, we propose Inference-Time Cross-Lingual Intervention (INCLINE), a novel framework that enhances LLM performance on low-performing (source) languages by aligning their internal representations with those of high-performing (target) languages during inference. INCLINE initially learns alignment matrices using parallel sentences from source and target languages through a Least-Squares optimization, and then applies these matrices during inference to transform the low-performing language representations toward the high-performing language space. Extensive experiments on nine benchmarks with five LLMs demonstrate that INCLINE significantly improves performance across diverse tasks and languages, compared to recent strong baselines. Our analysis demonstrates that INCLINE is highly cost-effective and applicable to a wide range of applications. In addition, we release the code to foster research along this line: https://github.com/weixuan-wang123/INCLINE.
- Abstract(参考訳): 大規模言語モデル(LLM)は自然言語処理において顕著な能力を示したが、異なる言語間では顕著な性能差を示した。
これらの格差に対処するための既存のアプローチは、リソース集約的な事前学習や微調整に依存している。
提案するInference-Time Cross-Lingual Intervention(INCLINE)は,低パフォーマンス(ソース)言語上でのLLM性能を推論中に高いパフォーマンス(ターゲット)言語と内部表現を整合させることにより向上させる新しいフレームワークである。
INCLINEはまず、Last-Squares最適化を通じて、ソースおよびターゲット言語からの並列文を用いてアライメント行列を学習し、その後、推論中にこれらの行列を適用して、低パフォーマンスな言語表現をハイパフォーマンスな言語空間へ変換する。
5つのLSMを持つ9つのベンチマークの大規模な実験により、INCLINEは最近の強力なベースラインと比較して、様々なタスクや言語のパフォーマンスを著しく改善することが示された。
分析の結果,INCLINEはコスト効率が高く,広範囲のアプリケーションに適用可能であることがわかった。
https://github.com/weixuan-wang123/INCLINE。
関連論文リスト
- Bridge-Coder: Unlocking LLMs' Potential to Overcome Language Gaps in Low-Resource Code [31.48411893252137]
LLM(Large Language Models)は、Pythonのような高リソースプログラミング言語(HRPL)のコードを生成する能力を示すが、RacketやDのような低リソースプログラミング言語(LRPL)と大きく競合する。
このパフォーマンスギャップは、デジタル格差を深くし、LRPLを使用する開発者がLLMの進歩から等しく利益を得るのを防ぎ、表現不足のプログラミングコミュニティにおけるイノベーションの格差を補強する。
LRPLの性能を高めるために,LLMの本質的な能力を活用したBridge-Coderという新しい手法を導入する。
論文 参考訳(メタデータ) (2024-10-24T17:55:03Z) - Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
Lensは、大規模言語モデル(LLM)の多言語機能を強化する新しいアプローチである
LLMの上位層から言語に依存しない、言語固有のサブ空間内の隠された表現を操作できる。
既存のポストトレーニング手法に比べて計算資源がはるかに少ないため、優れた結果が得られる。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - Assessing Code Generation with Intermediate Languages [6.999311675957218]
本研究では、様々なプログラミング言語、自然言語ソリューション、擬似コードを含む中間言語の利用について検討する。
以上の結果から, 中間言語は一般に, 最先端性能を達成できていない大規模モデルにおいて, 高い有効性を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-07-07T15:35:41Z) - Getting More from Less: Large Language Models are Good Spontaneous Multilingual Learners [67.85635044939836]
大きな言語モデル(LLM)は印象的な言語機能を示している。
本研究では,LLMの自然多言語アライメント改善について検討する。
質問翻訳データ(すなわち注釈付き回答なし)に基づいて学習したLLMは、英語と幅広い言語との整合を促進できることがわかった。
論文 参考訳(メタデータ) (2024-05-22T16:46:19Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - Quantifying Multilingual Performance of Large Language Models Across Languages [48.40607157158246]
大規模言語モデル(LLM)は、英語、ドイツ語、フランス語のような高リソース言語で、低リソース言語の能力は依然として不十分である。
内部表現を用いたLLM性能に基づいて,言語をベンチマークし,ランク付けするための固有測度であるLanguage Rankerを提案する。
分析の結果,高リソース言語は英語との類似度が高く,性能が優れ,低リソース言語は類似度が低いことがわかった。
論文 参考訳(メタデータ) (2024-04-17T16:53:16Z) - Analyzing and Adapting Large Language Models for Few-Shot Multilingual
NLU: Are We There Yet? [82.02076369811402]
教師付きファインチューニング(SFT)、教師付きインストラクションチューニング(SIT)、インコンテキストラーニング(ICL)は、3つの代替であり、事実上の標準的アプローチである。
提案手法は,6つの高・低リソース言語,3つの異なるNLUタスク,多種多様な言語とドメインのセットアップを用いて,3つのアプローチを網羅的かつ体系的に比較する。
そこで本研究では,教師あり指導のチューニングが,性能とリソース要件の最良のトレードオフであることを示す。
論文 参考訳(メタデータ) (2024-03-04T10:48:13Z) - PLUG: Leveraging Pivot Language in Cross-Lingual Instruction Tuning [46.153828074152436]
我々は、低リソース言語における命令チューニングを強化するために、ピボット言語ガイド生成手法を提案する。
モデルを訓練して、まずピボット言語で命令を処理し、次にターゲット言語で応答を生成する。
提案手法は,LLMの命令追従能力が平均29%向上したことを示す。
論文 参考訳(メタデータ) (2023-11-15T05:28:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。