論文の概要: MAPO: Advancing Multilingual Reasoning through Multilingual
Alignment-as-Preference Optimization
- arxiv url: http://arxiv.org/abs/2401.06838v1
- Date: Fri, 12 Jan 2024 18:03:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 21:10:04.491105
- Title: MAPO: Advancing Multilingual Reasoning through Multilingual
Alignment-as-Preference Optimization
- Title(参考訳): MAPO:マルチリンガルアライメント・アズ・プレフレクション最適化によるマルチリンガル推論の改善
- Authors: Shuaijie She, Shujian Huang, Wei Zou, Wenhao Zhu, Xiang Liu, Xiang
Geng, Jiajun Chen
- Abstract要約: 非ピボット言語における推論能力を高めるためのアライメント・アズ・参照最適化フレームワークを提案する。
実験により,本手法はモデルの多言語推論を大幅に改善し,言語間の推論一貫性が向上することが示された。
- 参考スコア(独自算出の注目度): 68.58933983362334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Though reasoning abilities are considered language-agnostic, existing LLMs
exhibit inconsistent reasoning abilities across different languages, e.g.,
reasoning in a pivot language is superior to other languages due to the
imbalance of multilingual training data.To enhance reasoning abilities in
non-pivot languages, we propose an alignment-as-preference optimization
framework. Specifically, we adopt an open-source translation model to estimate
the consistency between answers in non-pivot and pivot languages. We further
adopt the answer consistency as the preference for DPO or PPO thus optimizing
the lesser reasoning. Experiments show that our method significantly improves
the model's multilingual reasoning, with better reasoning consistency across
languages. Our framework achieved a 13.7% accuracy improvement on out-of-domain
datasets MSVAMP while preserving the competitive performance on MGSM. Moreover,
we find that iterative DPO is helpful for further alignment and improvement of
the model's multilingual mathematical reasoning ability, further pushing the
improvement to 16.7%
- Abstract(参考訳): 推論能力は言語に依存しないと考えられるが、既存のLCMでは多言語学習データの不均衡により、ピボット言語における推論能力は他の言語よりも優れており、非ピボット言語における推論能力を高めるために、アライメント・アズ・参照最適化フレームワークを提案する。
具体的には,非ピボット言語とピボット言語における回答間の一貫性を推定するために,オープンソースの翻訳モデルを採用する。
さらに、解の一貫性をDPOやPPOの選好として採用し、より少ない推論を最適化する。
実験により,複数の言語間の一貫性が向上し,モデルの多言語推論が大幅に向上することを示した。
MGSMの競合性能を維持しつつ,ドメイン外のデータセットMSVAMPに対して13.7%の精度向上を実現した。
さらに、反復的DPOは、モデルの多言語数学的推論能力のさらなる調整と改善に役立ち、さらに16.7%に改善を推し進める。
関連論文リスト
- The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
本稿では,大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメント手法を提案する。
実験結果から,質問アライメント手法は多様な推論シナリオにおける多言語のパフォーマンス向上に有効であることが示唆された。
その成功のメカニズムを理解するために、表現空間、チェーン・オブ・シンク、翻訳データスケールを分析する。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - Analyzing and Adapting Large Language Models for Few-Shot Multilingual
NLU: Are We There Yet? [82.02076369811402]
教師付きファインチューニング(SFT)、教師付きインストラクションチューニング(SIT)、インコンテキストラーニング(ICL)は、3つの代替であり、事実上の標準的アプローチである。
提案手法は,6つの高・低リソース言語,3つの異なるNLUタスク,多種多様な言語とドメインのセットアップを用いて,3つのアプローチを網羅的かつ体系的に比較する。
そこで本研究では,教師あり指導のチューニングが,性能とリソース要件の最良のトレードオフであることを示す。
論文 参考訳(メタデータ) (2024-03-04T10:48:13Z) - Exploring Multilingual Concepts of Human Value in Large Language Models: Is Value Alignment Consistent, Transferable and Controllable across Languages? [34.38469832305664]
異なる多言語性を持つ7種類の人的価値、16の言語、3のLLM系列を探索する。
これらの概念の言語間分析は、言語資源の相違から生じる3つの特徴を明らかにしている。
LLMの事前学習のための多言語データの合成について提案する。
論文 参考訳(メタデータ) (2024-02-28T07:18:39Z) - Unintended Impacts of LLM Alignment on Global Representation [70.42130533150728]
開発者は、RLHF(Reinforcement Learning From Human Feedback)やDPO(Direct Preference Optimization)など、様々な手順で、大規模言語モデル(LLM)をユーザの好みに合わせることができる。
我々は、アライメントが、グローバルな表現の3つの軸、すなわち、英語方言、多言語主義、世界各国の意見にどのように影響するかを探求する。
これらの意図しない影響に繋がる設計決定と、より公平な選好チューニングの推奨を議論することで、私たちは結論付けました。
論文 参考訳(メタデータ) (2024-02-22T23:31:22Z) - Beyond Static Models and Test Sets: Benchmarking the Potential of
Pre-trained Models Across Tasks and Languages [15.373725507698591]
本稿は,多言語評価における既存の実践を信頼できないものにし,言語環境全体にわたるMMLMの性能の全体像を提示していないことを論じる。
我々は,NLPタスクのパフォーマンス予測における最近の研究が,多言語NLPにおけるベンチマークの修正における潜在的な解決策となることを示唆する。
実験データと4つの異なる多言語データセットのケーススタディを比較し、これらの手法が翻訳に基づくアプローチとよく一致している性能の信頼性を推定できることを示した。
論文 参考訳(メタデータ) (2022-05-12T20:42:48Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - Gradient Vaccine: Investigating and Improving Multi-task Optimization in
Massively Multilingual Models [63.92643612630657]
本稿では、損失関数幾何学のレンズを通して多言語最適化のブラックボックスを覗き込もうとする。
最適化軌道に沿って測定された勾配類似性は重要な信号であり、言語近接とよく相関している。
そこで我々はGradient Vaccineというシンプルでスケーラブルな最適化手法を考案した。
論文 参考訳(メタデータ) (2020-10-12T17:26:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。