論文の概要: Multilingual Test-Time Scaling via Initial Thought Transfer
- arxiv url: http://arxiv.org/abs/2505.15508v1
- Date: Wed, 21 May 2025 13:27:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.665136
- Title: Multilingual Test-Time Scaling via Initial Thought Transfer
- Title(参考訳): 初期思考伝達による多言語テスト時間スケーリング
- Authors: Prasoon Bajpai, Tanmoy Chakraborty,
- Abstract要約: テストタイムのスケーリングは、推論性能を高めるための推論タイム戦略として広く採用されている。
本研究は,DeepSeek-R1-Distill-LLama-8BとDeepSeek-R1-Distill-Qwen-7Bを評価し,多言語環境でのテスト時間スケーリングに関する最初の体系的研究である。
- 参考スコア(独自算出の注目度): 19.863010475923414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-time scaling has emerged as a widely adopted inference-time strategy for boosting reasoning performance. However, its effectiveness has been studied almost exclusively in English, leaving its behavior in other languages largely unexplored. We present the first systematic study of test-time scaling in multilingual settings, evaluating DeepSeek-R1-Distill-LLama-8B and DeepSeek-R1-Distill-Qwen-7B across both high- and low-resource Latin-script languages. Our findings reveal that the relative gains from test-time scaling vary significantly across languages. Additionally, models frequently switch to English mid-reasoning, even when operating under strictly monolingual prompts. We further show that low-resource languages not only produce initial reasoning thoughts that differ significantly from English but also have lower internal consistency across generations in their early reasoning. Building on our findings, we introduce MITT (Multilingual Initial Thought Transfer), an unsupervised and lightweight reasoning prefix-tuning approach that transfers high-resource reasoning prefixes to enhance test-time scaling across all languages, addressing inconsistencies in multilingual reasoning performance. MITT significantly boosts DeepSeek-R1-Distill-Qwen-7B's reasoning performance, especially for underrepresented languages.
- Abstract(参考訳): テストタイムのスケーリングは、推論性能を高めるための推論タイム戦略として広く採用されている。
しかし、その効果はほとんど英語で研究され、他の言語ではほとんど探索されていない。
本稿では,多言語設定におけるテスト時間スケーリングに関する最初の体系的研究を行い,高次および低次ラテン文字言語を対象としたDeepSeek-R1-Distill-LLama-8BとDeepSeek-R1-Distill-Qwen-7Bを評価した。
その結果,テストタイムのスケーリングによる相対的な増加は言語によって大きく異なることがわかった。
さらに、厳密な単言語的プロンプトの下で動作しても、しばしば英語の中間推論に切り替える。
さらに、低リソース言語は、英語と大きく異なる最初の推論思想を創出するだけでなく、初期の推論において世代間で内部整合性が低いことも示している。
我々はMITT (Multilingual Initial Thought Transfer) を導入し,多言語推論性能の不整合に対処するため,高リソース推論プレフィックスを転送し,全言語にわたるテスト時間スケーリングを向上する,教師なしかつ軽量な推論プレフィックスチューニング手法を提案する。
MITTはDeepSeek-R1-Distill-Qwen-7Bの推論性能を大幅に向上させた。
関連論文リスト
- When Less Language is More: Language-Reasoning Disentanglement Makes LLMs Better Multilingual Reasoners [111.50503126693444]
言語固有のアブレーションは多言語推論性能を継続的に向上させることを示す。
トレーニング後のアブレーションと比較して、トレーニング不要のアブレーションは、計算オーバーヘッドを最小限に抑えながら、同等または優れた結果が得られる。
論文 参考訳(メタデータ) (2025-05-21T08:35:05Z) - Crosslingual Reasoning through Test-Time Scaling [51.55526326294275]
英語中心の推論言語モデル(RLM)に対する推論計算のスケールアップは、多くの言語における多言語数学的推論を改善する。
英語中心の RLM の CoT は自然に英語が主流であるが、引用された非英語入力を推論するための引用と思考のパターンは一貫して従っている。
我々は、ドメイン外推論の一般化、特にSTEMから文化常識の知識まで、英語においても、貧弱なドメイン外推論の一般化を観察する。
論文 参考訳(メタデータ) (2025-05-08T16:50:06Z) - Scaling Test-time Compute for Low-resource Languages: Multilingual Reasoning in LLMs [3.9530780161144667]
本稿では,大規模言語モデルが潜在空間で内部的に操作する多言語メカニズムについて検討する。
我々は、低リソース言語での入力を条件に、ターゲット言語で最終応答を出力しながら、英語でチェーン・オブ・ソート(CoT)を生成するモデルを訓練する。
我々の実験では、この手法は英語によるCoTトレーニングと呼ばれ、28.33%の改善で他のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-04-02T16:58:36Z) - SLAM: Towards Efficient Multilingual Reasoning via Selective Language Alignment [78.4550589538805]
本稿では,多言語性を扱うレイヤを正確に識別し,微調整する,効率的な多言語推論アライメント手法を提案する。
実験の結果, SLAM法は7Bおよび13BLLMのパラメータの6.5-8%を含む6層のフィードフォワードサブ層のみをチューニングできることがわかった。
論文 参考訳(メタデータ) (2025-01-07T10:29:43Z) - Investigating Language-Specific Calibration For Pruning Multilingual Large Language Models [11.421452042888523]
多様な言語,タスク,モデル,および SotA プルーニング技術を用いて,多言語モデルをプルーニングするためのキャリブレーション言語を比較した。
例えば、ターゲット言語を校正することで、効率的に言語モデリング能力を維持することができるが、必ずしも下流タスクに利益をもたらすとは限らない。
論文 参考訳(メタデータ) (2024-08-26T16:29:13Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - It's All in the Heads: Using Attention Heads as a Baseline for
Cross-Lingual Transfer in Commonsense Reasoning [4.200736775540874]
我々は,重みを重み付けした線形分類器を特徴として訓練するコモンセンス推論への簡単なアプローチを設計する。
本手法は,近年のコモンセンス推論における教師なし・教師なしの手法と競合する。
パフォーマンスの大部分は、すべての研究対象言語に対する注目の小さなサブセットによって与えられる。
論文 参考訳(メタデータ) (2021-06-22T21:25:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。