論文の概要: Align to the Pivot: Dual Alignment with Self-Feedback for Multilingual Math Reasoning
- arxiv url: http://arxiv.org/abs/2601.17671v1
- Date: Sun, 25 Jan 2026 03:20:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.196266
- Title: Align to the Pivot: Dual Alignment with Self-Feedback for Multilingual Math Reasoning
- Title(参考訳): Pivot によらず:多言語数学推論のための自己フィードバック付きデュアルアライメント
- Authors: Chunxu Zhao, Xin Huang, Xue Han, Shujian Huang, Chao Deng, Junlan Feng,
- Abstract要約: Pivot-Aligned Self-Feedback Multilingual Reasoning (PASMR)を提案する。
このアプローチは、モデルの第一言語をピボット言語として指定する。
外部の正しい回答や報酬モデルに頼ることなく、言語横断的な自己フィードバック機構を確立する。
- 参考スコア(独自算出の注目度): 71.4175109189942
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the impressive reasoning abilities demonstrated by large language models (LLMs), empirical evidence indicates that they are not language agnostic as expected, leading to performance declines in multilingual settings, especially for low-resource languages. We attribute the decline to the model's inconsistent multilingual understanding and reasoning alignment. To address this, we present Pivot-Aligned Self-Feedback Multilingual Reasoning (PASMR), aiming to improve the alignment of multilingual math reasoning abilities in LLMs. This approach designates the model's primary language as the pivot language. During training, the model first translates questions into the pivot language to facilitate better alignment of reasoning patterns. The reasoning process in the target language is then supervised by the pivot language's reasoning answers, thereby establishing a cross-lingual self-feedback mechanism without relying on external correct answers or reward models. Extensive experimental results demonstrate that our method enhances both the model's understanding of questions and its reasoning capabilities, leading to notable task improvements.
- Abstract(参考訳): 大規模言語モデル(LLM)によって実証された印象的な推論能力にもかかわらず、実証的な証拠はそれらが期待通りに言語に依存しないことを示している。
我々は、モデルの不整合多言語理解と推論アライメントの減少に起因している。
そこで我々は,LLMにおける多言語数学推論能力の整合性向上を目的とした,Pivot-Aligned Self-Feedback Multilingual Reasoning (PASMR)を提案する。
このアプローチは、モデルの第一言語をピボット言語として指定する。
トレーニング中、モデルはまず質問をピボット言語に翻訳し、推論パターンのアライメントを改善する。
対象言語の推論過程は、ピボット言語の推論解によって制御されるので、外部の正解や報酬モデルに頼ることなく、言語間自己フィードバック機構を確立することができる。
実験結果から,本手法は質問に対するモデルの理解と推論能力の両立を図り,タスクの改善に繋がることを示した。
関連論文リスト
- Aligning Multilingual Reasoning with Verifiable Semantics from a High-Resource Expert Model [13.788758077632432]
本稿では,セマンティック検証リワードを用いたPivot-based Reinforcement Learningを紹介する。
このフレームワークは、ターゲット言語における人間の注釈付きデータの必要性を回避し、多言語推論を強化する。
提案手法は,英語と他言語のパフォーマンスギャップを著しく狭めることを示す。
論文 参考訳(メタデータ) (2025-09-29T22:03:11Z) - When Less Language is More: Language-Reasoning Disentanglement Makes LLMs Better Multilingual Reasoners [111.50503126693444]
言語固有のアブレーションは多言語推論性能を継続的に向上させることを示す。
トレーニング後のアブレーションと比較して、トレーニング不要のアブレーションは、計算オーバーヘッドを最小限に抑えながら、同等または優れた結果が得られる。
論文 参考訳(メタデータ) (2025-05-21T08:35:05Z) - A Survey of Multilingual Reasoning in Language Models [30.140967158580892]
この調査は、言語モデルにおける多言語推論に関する、最初の詳細なレビューを提供する。
本稿では,LMにおける多言語推論のトレーニングに使用される標準データリソースの概要について述べる。
我々は,これらのベンチマークを用いて,様々な最先端手法とその性能を解析する。
論文 参考訳(メタデータ) (2025-02-13T16:25:16Z) - AdaMCoT: Rethinking Cross-Lingual Factual Reasoning through Adaptive Multilingual Chain-of-Thought [40.16140566668239]
AdaMCOTは多言語の事実推論を強化するフレームワークである。
AdaMCOTは、ターゲット言語応答を生成する前に、中間言語における思考プロセスを動的にルーティングする。
本評価は, 事実推論品質と言語間整合性の両方において, 大幅な改善を示すものである。
論文 参考訳(メタデータ) (2025-01-27T15:48:57Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - MAPO: Advancing Multilingual Reasoning through Multilingual Alignment-as-Preference Optimization [65.31411639849516]
本稿では,他言語の推論過程を支配言語と整合させるために,MAPO(Multilingual-Alignment-as-Preference Optimization)フレームワークを提案する。
具体的には,非支配言語と支配言語における回答の整合性について,既成の翻訳モデルを用いて検討する。
実験により、MAPOは様々なモデルの多言語推論において、安定して大幅な改善を達成できることが示された。
論文 参考訳(メタデータ) (2024-01-12T18:03:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。