論文の概要: MAPO: Advancing Multilingual Reasoning through Multilingual
Alignment-as-Preference Optimization
- arxiv url: http://arxiv.org/abs/2401.06838v1
- Date: Fri, 12 Jan 2024 18:03:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 21:10:04.491105
- Title: MAPO: Advancing Multilingual Reasoning through Multilingual
Alignment-as-Preference Optimization
- Title(参考訳): MAPO:マルチリンガルアライメント・アズ・プレフレクション最適化によるマルチリンガル推論の改善
- Authors: Shuaijie She, Shujian Huang, Wei Zou, Wenhao Zhu, Xiang Liu, Xiang
Geng, Jiajun Chen
- Abstract要約: 非ピボット言語における推論能力を高めるためのアライメント・アズ・参照最適化フレームワークを提案する。
実験により,本手法はモデルの多言語推論を大幅に改善し,言語間の推論一貫性が向上することが示された。
- 参考スコア(独自算出の注目度): 68.58933983362334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Though reasoning abilities are considered language-agnostic, existing LLMs
exhibit inconsistent reasoning abilities across different languages, e.g.,
reasoning in a pivot language is superior to other languages due to the
imbalance of multilingual training data.To enhance reasoning abilities in
non-pivot languages, we propose an alignment-as-preference optimization
framework. Specifically, we adopt an open-source translation model to estimate
the consistency between answers in non-pivot and pivot languages. We further
adopt the answer consistency as the preference for DPO or PPO thus optimizing
the lesser reasoning. Experiments show that our method significantly improves
the model's multilingual reasoning, with better reasoning consistency across
languages. Our framework achieved a 13.7% accuracy improvement on out-of-domain
datasets MSVAMP while preserving the competitive performance on MGSM. Moreover,
we find that iterative DPO is helpful for further alignment and improvement of
the model's multilingual mathematical reasoning ability, further pushing the
improvement to 16.7%
- Abstract(参考訳): 推論能力は言語に依存しないと考えられるが、既存のLCMでは多言語学習データの不均衡により、ピボット言語における推論能力は他の言語よりも優れており、非ピボット言語における推論能力を高めるために、アライメント・アズ・参照最適化フレームワークを提案する。
具体的には,非ピボット言語とピボット言語における回答間の一貫性を推定するために,オープンソースの翻訳モデルを採用する。
さらに、解の一貫性をDPOやPPOの選好として採用し、より少ない推論を最適化する。
実験により,複数の言語間の一貫性が向上し,モデルの多言語推論が大幅に向上することを示した。
MGSMの競合性能を維持しつつ,ドメイン外のデータセットMSVAMPに対して13.7%の精度向上を実現した。
さらに、反復的DPOは、モデルの多言語数学的推論能力のさらなる調整と改善に役立ち、さらに16.7%に改善を推し進める。
関連論文リスト
- ShifCon: Enhancing Non-Dominant Language Capabilities with a Shift-based Contrastive Framework [79.72910257530795]
ShifConはShiftベースのContrastiveフレームワークで、他の言語の内部の前進プロセスを支配的な言語に合わせる。
非支配的な言語の表現を支配的な言語サブスペースに移行し、モデルパラメータにエンコードされた比較的リッチな情報にアクセスできるようにする。
実験により、我々のShifConフレームワークは、非支配言語の性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-10-25T10:28:59Z) - Language Imbalance Driven Rewarding for Multilingual Self-improving [35.1576728251478]
大規模言語モデル(LLM)は多くのタスクで最先端のパフォーマンスを達成した。
この不均衡は、より広範なアプリケーションを制限する一方で、言語間の自然な選好ランキングを生成する。
我々は、支配的言語と非支配的言語との間の固有の不均衡を報酬信号として活用する、$textitLanguage Im Balance Driven Rewarding$を提案する。
論文 参考訳(メタデータ) (2024-10-11T16:32:05Z) - X-ALMA: Plug & Play Modules and Adaptive Rejection for Quality Translation at Scale [25.257770733168012]
大規模言語モデル(LLM)は、様々なNLPタスクで顕著な成功を収めてきたが、主に英語に焦点を当てている。
本稿では,多言語機械翻訳タスクに着目し,言語数よりも品質を優先する。
X-ALMAは、リソースレベルに関係なく、50の異なる言語で最高のパフォーマンスを保証することを約束するモデルである。
論文 参考訳(メタデータ) (2024-10-04T03:17:27Z) - Preference Tuning For Toxicity Mitigation Generalizes Across Languages [17.784213168942117]
本研究は、多言語大言語モデルにおける選好チューニングのゼロショット言語間一般化について考察する。
我々は,英語データのみを用いた直接選好最適化学習が,多言語オープンエンド世代における毒性を著しく低下させることを実証した。
論文 参考訳(メタデータ) (2024-06-23T22:53:47Z) - mCoT: Multilingual Instruction Tuning for Reasoning Consistency in Language Models [21.616940026409818]
大規模言語モデル(LLM)とChain-of-Thought(CoT)は、最近、下流タスクを改善するために推論を誘発する強力なテクニックとして登場した。
オープンソース LLM を用いて,多言語間の多言語推論の整合性について検討する。
言語間の推論能力を向上させるため,多言語CoT命令チューニングを導入し,モデルの整合性を向上させる。
論文 参考訳(メタデータ) (2024-06-04T13:30:45Z) - Analyzing and Adapting Large Language Models for Few-Shot Multilingual
NLU: Are We There Yet? [82.02076369811402]
教師付きファインチューニング(SFT)、教師付きインストラクションチューニング(SIT)、インコンテキストラーニング(ICL)は、3つの代替であり、事実上の標準的アプローチである。
提案手法は,6つの高・低リソース言語,3つの異なるNLUタスク,多種多様な言語とドメインのセットアップを用いて,3つのアプローチを網羅的かつ体系的に比較する。
そこで本研究では,教師あり指導のチューニングが,性能とリソース要件の最良のトレードオフであることを示す。
論文 参考訳(メタデータ) (2024-03-04T10:48:13Z) - Unintended Impacts of LLM Alignment on Global Representation [62.6579934112071]
開発者は、RLHF(Reinforcement Learning From Human Feedback)やDPO(Direct Preference Optimization)など、様々な手順で、大規模言語モデル(LLM)をユーザの好みに合わせることができる。
我々は、アライメントが、グローバルな表現の3つの軸、すなわち、英語方言、多言語主義、世界各国の意見にどのように影響するかを探求する。
これらの意図しない影響に繋がる設計決定と、より公平な選好チューニングの推奨を議論することで、私たちは結論付けました。
論文 参考訳(メタデータ) (2024-02-22T23:31:22Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - Gradient Vaccine: Investigating and Improving Multi-task Optimization in
Massively Multilingual Models [63.92643612630657]
本稿では、損失関数幾何学のレンズを通して多言語最適化のブラックボックスを覗き込もうとする。
最適化軌道に沿って測定された勾配類似性は重要な信号であり、言語近接とよく相関している。
そこで我々はGradient Vaccineというシンプルでスケーラブルな最適化手法を考案した。
論文 参考訳(メタデータ) (2020-10-12T17:26:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。