論文の概要: Language Imbalance Driven Rewarding for Multilingual Self-improving
- arxiv url: http://arxiv.org/abs/2410.08964v2
- Date: Fri, 1 Nov 2024 15:53:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 14:45:01.747118
- Title: Language Imbalance Driven Rewarding for Multilingual Self-improving
- Title(参考訳): 多言語自己改善のための言語不均衡駆動リワード
- Authors: Wen Yang, Junhong Wu, Chen Wang, Chengqing Zong, Jiajun Zhang,
- Abstract要約: 大規模言語モデル(LLM)は多くのタスクで最先端のパフォーマンスを達成した。
この不均衡は、より広範なアプリケーションを制限する一方で、言語間の自然な選好ランキングを生成する。
我々は、支配的言語と非支配的言語との間の固有の不均衡を報酬信号として活用する、$textitLanguage Im Balance Driven Rewarding$を提案する。
- 参考スコア(独自算出の注目度): 35.1576728251478
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have achieved state-of-the-art performance across numerous tasks. However, these advancements have predominantly benefited "first-class" languages such as English and Chinese, leaving many other languages underrepresented. This imbalance, while limiting broader applications, generates a natural preference ranking between languages, offering an opportunity to bootstrap the multilingual capabilities of LLM in a self-improving manner. Thus, we propose $\textit{Language Imbalance Driven Rewarding}$, where the inherent imbalance between dominant and non-dominant languages within LLMs is leveraged as a reward signal. Iterative DPO training demonstrates that this approach not only enhances LLM performance in non-dominant languages but also improves the dominant language's capacity, thereby yielding an iterative reward signal. Fine-tuning Meta-Llama-3-8B-Instruct over two iterations of this approach results in continuous improvements in multilingual performance across instruction-following and arithmetic reasoning tasks, evidenced by an average improvement of 7.46% win rate on the X-AlpacaEval leaderboard and 13.9% accuracy on the MGSM benchmark. This work serves as an initial exploration, paving the way for multilingual self-improvement of LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は多くのタスクで最先端のパフォーマンスを達成した。
しかし、これらの進歩は英語や中国語のような「第一級」の言語に大きく恩恵を受けており、他の多くの言語が不足している。
この不均衡は、より広範なアプリケーションを制限する一方で、言語間の自然な選好ランキングを生成し、自己改善的な方法でLLMの多言語機能をブートストラップする機会を提供する。
そこで我々は, LLM内の支配的言語と非支配的言語との間の固有不均衡を報酬信号として活用する$\textit{Language Im Balance Driven Rewarding}$を提案する。
反復的なDPO訓練は、このアプローチが非支配言語におけるLLM性能を高めるだけでなく、支配言語の性能も向上し、反復的な報酬信号が得られることを示した。
このアプローチの2回にわたる微調整のMeta-Llama-3-8B-インストラクションにより、命令追従タスクと算術推論タスクの多言語パフォーマンスが継続的に改善され、X-AlpacaEvalのリードボードでは平均7.46%、MGSMベンチマークでは13.9%の精度で改善されたことが証明された。
この研究は初期の探索として機能し、LLMの多言語自己改善の道を開いた。
関連論文リスト
- Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
Lensは、大規模言語モデル(LLM)の多言語機能を強化する新しいアプローチである
LLMの上位層から言語に依存しない、言語固有のサブ空間内の隠された表現を操作できる。
既存のポストトレーニング手法に比べて計算資源がはるかに少ないため、優れた結果が得られる。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - Pruning Multilingual Large Language Models for Multilingual Inference [28.36717615166238]
本研究では,非英語言語におけるMLLMのゼロショット性能を向上させる方法について検討する。
まず、翻訳を行う際のMLLMの挙動を分析し、翻訳過程において重要な役割を果たす大きな特徴があることを明らかにする。
論文 参考訳(メタデータ) (2024-09-25T13:15:50Z) - MindMerger: Efficient Boosting LLM Reasoning in non-English Languages [26.334092384176518]
推論能力は大規模言語モデル(LLM)にとって不可欠である
我々は,多言語モデルからLLMと外部言語理解機能を融合したMindMergerを提案する。
MindMergerは、特に低リソース言語において、すべてのベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2024-05-27T17:41:54Z) - Getting More from Less: Large Language Models are Good Spontaneous Multilingual Learners [67.85635044939836]
大きな言語モデル(LLM)は印象的な言語機能を示している。
本研究では,LLMの自然多言語アライメント改善について検討する。
質問翻訳データ(すなわち注釈付き回答なし)に基づいて学習したLLMは、英語と幅広い言語との整合を促進できることがわかった。
論文 参考訳(メタデータ) (2024-05-22T16:46:19Z) - Quantifying Multilingual Performance of Large Language Models Across Languages [48.40607157158246]
大規模言語モデル(LLM)は、英語、ドイツ語、フランス語のような高リソース言語で、低リソース言語の能力は依然として不十分である。
内部表現を用いたLLM性能に基づいて,言語をベンチマークし,ランク付けするための固有測度であるLanguage Rankerを提案する。
分析の結果,高リソース言語は英語との類似度が高く,性能が優れ,低リソース言語は類似度が低いことがわかった。
論文 参考訳(メタデータ) (2024-04-17T16:53:16Z) - Enhancing Multilingual Capabilities of Large Language Models through
Self-Distillation from Resource-Rich Languages [60.162717568496355]
大規模言語モデル(LLM)は多言語コーパスで事前訓練されている。
彼らのパフォーマンスは、いくつかのリソース豊富な言語と比較して、ほとんどの言語でまだ遅れています。
論文 参考訳(メタデータ) (2024-02-19T15:07:32Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - Extrapolating Large Language Models to Non-English by Aligning Languages [109.09051737966178]
既存の大きな言語モデルは、異なる言語間で異なる能力を示す。
本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化する。
論文 参考訳(メタデータ) (2023-08-09T13:32:06Z) - Breaking Language Barriers with a LEAP: Learning Strategies for Polyglot
LLMs [5.682384717239095]
大規模言語モデル(LLM)は、世界中の多くのドメインを変換する最前線にある。
本稿では,LLMの多言語性能向上のための命令的課題に取り組む。
ポリグロットランドスケープにおけるLLMの真のポテンシャルを解き放つ新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-28T14:48:38Z) - Not All Languages Are Created Equal in LLMs: Improving Multilingual
Capability by Cross-Lingual-Thought Prompting [123.16452714740106]
大規模言語モデル(LLM)は印象的な多言語機能を示すが、その性能は言語によって大きく異なる。
XLT (cross-lingual- Thought prompting) という,シンプルで効果的な方法を提案する。
XLTは汎用テンプレートプロンプトで、言語間および論理的推論スキルを刺激し、言語間のタスクパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2023-05-11T17:44:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。