論文の概要: TAPO: Translation Augmented Policy Optimization for Multilingual Mathematical Reasoning
- arxiv url: http://arxiv.org/abs/2603.25419v1
- Date: Thu, 26 Mar 2026 13:13:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.309178
- Title: TAPO: Translation Augmented Policy Optimization for Multilingual Mathematical Reasoning
- Title(参考訳): TAPO:多言語数学的推論のための翻訳拡張ポリシー最適化
- Authors: Xu Huang, Zhejian Lai, Zixian Huang, Jiajun Chen, Shujian Huang,
- Abstract要約: 大規模言語モデル (LLM) は、英語の数学的推論において顕著な習熟性を示している。
言語理解の欠如に起因して、多言語的文脈において重要なパフォーマンス格差が持続する。
本稿では,GRPO上に構築された新しい強化学習フレームワークであるTranslation-Augmented Policy Optimization (TAPO)を紹介する。
- 参考スコア(独自算出の注目度): 41.884158267107615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable proficiency in English mathematical reasoning, yet a significant performance disparity persists in multilingual contexts, largely attributed to deficiencies in language understanding. To bridge this gap, we introduce Translation-Augmented Policy Optimization (TAPO), a novel reinforcement learning framework built upon GRPO. TAPO enforces an explicit alignment strategy where the model leverages English as a pivot and follows an understand-then-reason paradigm. Crucially, we employ a step-level relative advantage mechanism that decouples understanding from reasoning, allowing the integration of translation quality rewards without introducing optimization conflicts. Extensive experiments reveal that TAPO effectively synergizes language understanding with reasoning capabilities and is compatible with various models. It outperforms baseline methods in both multilingual mathematical reasoning and translation tasks, while generalizing well to unseen languages and out-of-domain tasks.
- Abstract(参考訳): 大規模言語モデル (LLM) は、英語の数学的推論において顕著な習熟性を示しているが、多言語的文脈では顕著な性能格差が持続する。
このギャップを埋めるために、GRPO上に構築された新しい強化学習フレームワークであるTranslation-Augmented Policy Optimization (TAPO)を導入する。
TAPOは、モデルが英語をピボットとして活用し、理解と推論のパラダイムに従う明示的なアライメント戦略を実施する。
重要なことに、我々は、推論から理解を分離するステップレベルの相対的優位性メカニズムを採用し、最適化競合を導入することなく、翻訳品質報酬の統合を可能にします。
広範な実験により,TAPOは推論能力と言語理解を効果的に相乗化し,様々なモデルと互換性があることが判明した。
多言語数学的推論と翻訳タスクの両方において、ベースラインメソッドよりも優れており、未確認の言語やドメイン外タスクによく一般化されている。
関連論文リスト
- Aligning Multilingual Reasoning with Verifiable Semantics from a High-Resource Expert Model [13.788758077632432]
本稿では,セマンティック検証リワードを用いたPivot-based Reinforcement Learningを紹介する。
このフレームワークは、ターゲット言語における人間の注釈付きデータの必要性を回避し、多言語推論を強化する。
提案手法は,英語と他言語のパフォーマンスギャップを著しく狭めることを示す。
論文 参考訳(メタデータ) (2025-09-29T22:03:11Z) - Improving Multilingual Language Models by Aligning Representations through Steering [10.159957091670883]
本稿では,Large Language Models (LLM) が非英語トークンをどのように表現するかを検討する。
表現ステアリングを用いた軽量な介入手法を提案し、学習ベクトルを1つのモデル層における残差ストリームに追加し、多言語性能を向上させる。
論文 参考訳(メタデータ) (2025-05-19T00:14:43Z) - AdaMCoT: Rethinking Cross-Lingual Factual Reasoning through Adaptive Multilingual Chain-of-Thought [40.16140566668239]
AdaMCOTは多言語の事実推論を強化するフレームワークである。
AdaMCOTは、ターゲット言語応答を生成する前に、中間言語における思考プロセスを動的にルーティングする。
本評価は, 事実推論品質と言語間整合性の両方において, 大幅な改善を示すものである。
論文 参考訳(メタデータ) (2025-01-27T15:48:57Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - MAPO: Advancing Multilingual Reasoning through Multilingual Alignment-as-Preference Optimization [65.31411639849516]
本稿では,他言語の推論過程を支配言語と整合させるために,MAPO(Multilingual-Alignment-as-Preference Optimization)フレームワークを提案する。
具体的には,非支配言語と支配言語における回答の整合性について,既成の翻訳モデルを用いて検討する。
実験により、MAPOは様々なモデルの多言語推論において、安定して大幅な改善を達成できることが示された。
論文 参考訳(メタデータ) (2024-01-12T18:03:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。