論文の概要: Gained in Translation: Privileged Pairwise Judges Enhance Multilingual Reasoning
- arxiv url: http://arxiv.org/abs/2601.18722v1
- Date: Mon, 26 Jan 2026 17:46:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.976228
- Title: Gained in Translation: Privileged Pairwise Judges Enhance Multilingual Reasoning
- Title(参考訳): 英訳:PairwiseのPairwise Judgesが多言語推論を推奨
- Authors: Lintang Sutawika, Gokul Swamy, Zhiwei Steven Wu, Graham Neubig,
- Abstract要約: textttSP3Fは、ターゲット言語におけるテクティタニーデータなしで多言語推論を強化するフレームワークである。
まず、英語の質問応答対の翻訳版にファインチューン(SFT)を監督し、ベースモデルの正確性を高める。
第二に、RLはペアワイズ・ジャッジからのフィードバックをセルフプレイ方式で実行し、裁判官は英語の参照応答をテキストプライベート情報として受信する。
- 参考スコア(独自算出の注目度): 74.00326879493225
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: When asked a question in a language less seen in its training data, current reasoning large language models (RLMs) often exhibit dramatically lower performance than when asked the same question in English. In response, we introduce \texttt{SP3F} (Self-Play with Privileged Pairwise Feedback), a two-stage framework for enhancing multilingual reasoning without \textit{any} data in the target language(s). First, we supervise fine-tune (SFT) on translated versions of English question-answer pairs to raise base model correctness. Second, we perform RL with feedback from a pairwise judge in a self-play fashion, with the judge receiving the English reference response as \textit{privileged information}. Thus, even when none of the model's responses are completely correct, the privileged pairwise judge can still tell which response is better. End-to-end, \texttt{SP3F} greatly improves base model performance, even outperforming fully post-trained models on multiple math and non-math tasks with less than of the training data across the single-language, multilingual, and generalization to unseen language settings.
- Abstract(参考訳): トレーニングデータにあまり見られない言語で質問すると、現在の推論大言語モデル(RLM)は、英語で同じ質問をする時よりも劇的に低いパフォーマンスを示します。
そこで本研究では,対象言語における \textit{any} データを使わずに多言語推論を強化するための2段階フレームワークである \texttt{SP3F} (Privleged Pairwise Feedback付きSelf-Play) を紹介した。
まず、英語の質問応答対の翻訳版にファインチューン(SFT)を監督し、ベースモデルの正確性を高める。
第二に、RLはペアワイズ・ジャッジからのフィードバックをセルフプレイで行い、裁判官は英語の参照応答を \textit{privileged information} として受信する。
したがって、モデルの応答が完全に正しくない場合でも、特権付きペアワイズ・ジャッジはどの応答がよいかを判断することができる。
エンド・ツー・エンドの \texttt{SP3F} はベースモデルの性能を大幅に改善し、複数の数学や非数学タスクにおいて、単一の言語、多言語、そして見当たらない言語設定への一般化よりも少ないトレーニングデータで完全に訓練後のモデルよりも優れています。
関連論文リスト
- Align to the Pivot: Dual Alignment with Self-Feedback for Multilingual Math Reasoning [71.4175109189942]
Pivot-Aligned Self-Feedback Multilingual Reasoning (PASMR)を提案する。
このアプローチは、モデルの第一言語をピボット言語として指定する。
外部の正しい回答や報酬モデルに頼ることなく、言語横断的な自己フィードバック機構を確立する。
論文 参考訳(メタデータ) (2026-01-25T03:20:00Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - Question Translation Training for Better Multilingual Reasoning [108.10066378240879]
大規模言語モデルは推論タスクにおいて魅力的なパフォーマンスを示すが、英語以外の言語ではより悪いパフォーマンスを示す傾向がある。
典型的な解決策は、命令データを興味のあるすべての言語に翻訳し、結果の多言語データをトレーニングすることである。
本稿では,X- English parallel question dataを微調整することで,推論する質問を英語に翻訳するモデルを訓練する。
論文 参考訳(メタデータ) (2024-01-15T16:39:10Z) - Ask Again, Then Fail: Large Language Models' Vacillations in Judgment [28.74246375289661]
我々は、現在の会話言語モデルが、フォローアップされた質問に直面すると、判断を揺るがすことが多いことを観察する。
我々は、この矛盾を定量化するための2つの指標とともに、textscFollow-up Questioning Mechanismを紹介した。
トレーニングベースのフレームワーク TextscUnwavering-FQ を開発した。
論文 参考訳(メタデータ) (2023-10-03T16:08:41Z) - MuCoT: Multilingual Contrastive Training for Question-Answering in
Low-resource Languages [4.433842217026879]
マルチ言語BERTベースのモデル(mBERT)は、高ソース言語から低リソース言語への知識伝達にしばしば使用される。
対象言語のQAサンプルを他の言語に翻訳し,mBERTベースのQAモデルを微調整するために拡張データを使用する。
Google ChAIIデータセットの実験では、mBERTモデルを同じ言語ファミリーからの翻訳で微調整することで、質問応答のパフォーマンスが向上することが示された。
論文 参考訳(メタデータ) (2022-04-12T13:52:54Z) - Multilingual Answer Sentence Reranking via Automatically Translated Data [97.98885151955467]
本稿では,現代の質問応答システム(QA)のコアコンポーネントである,多言語回答文選択(AS2)モデルの設計について述べる。
主なアイデアは、あるリソースリッチ言語(英語など)から、他の言語へのデータ転送であり、リソースの観点からはよりリッチである。
論文 参考訳(メタデータ) (2021-02-20T03:52:08Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。