論文の概要: MAPO: Advancing Multilingual Reasoning through Multilingual
Alignment-as-Preference Optimization
- arxiv url: http://arxiv.org/abs/2401.06838v2
- Date: Thu, 22 Feb 2024 12:58:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 18:01:43.780473
- Title: MAPO: Advancing Multilingual Reasoning through Multilingual
Alignment-as-Preference Optimization
- Title(参考訳): MAPO:マルチリンガルアライメント・アズ・プレフレクション最適化によるマルチリンガル推論の改善
- Authors: Shuaijie She, Wei Zou, Shujian Huang, Wenhao Zhu, Xiang Liu, Xiang
Geng, Jiajun Chen
- Abstract要約: 本稿では,他言語の推論過程を支配言語と整合させるために,MAPO(Multilingual-Alignment-as-Preference Optimization)フレームワークを提案する。
具体的には,非支配言語と支配言語における回答の整合性について,既成の翻訳モデルを用いて検討する。
実験により、MAPOは様々なモデルの多言語推論において、安定して大幅な改善を達成できることが示された。
- 参考スコア(独自算出の注目度): 68.58933983362334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Though reasoning abilities are considered language-agnostic, existing LLMs
exhibit inconsistent reasoning abilities across different languages, e.g.,
reasoning in the dominant language like English is superior to other languages
due to the imbalance of multilingual training data. To enhance reasoning
abilities in non-dominant languages, we propose a
Multilingual-Alignment-as-Preference Optimization framework (MAPO), aiming to
align the reasoning processes in other languages with the dominant language.
Specifically, we harness an off-the-shelf translation model for the consistency
between answers in non-dominant and dominant languages, which we adopt as the
preference for optimization, e.g., Direct Preference Optimization (DPO) or
Proximal Policy Optimization (PPO). Experiments show that MAPO stably achieves
significant improvements in the multilingual reasoning of various models on all
three benchmarks (MSVAMP +16.2%, MGSM +6.1%, and MNumGLUESub +13.3%), with
improved reasoning consistency across languages.
- Abstract(参考訳): 推論能力は言語に依存しないと考えられているが、既存のllmは、英語のような支配的な言語における推論は、多言語訓練データの不均衡のため、他言語よりも優れているなど、異なる言語間で一貫性のない推論能力を示している。
非支配言語における推論能力を高めるために,他言語における推論プロセスと支配言語との整合性を図るために,MAPO(Multilingual-Alignment-as-Preference Optimization framework)を提案する。
具体的には,非支配的言語と支配的言語における回答の一貫性にオフ・ザ・シェルフ翻訳モデルを適用し,最適化の選好として,例えばdirect preference optimization(dpo)やproximal policy optimization(ppo)を採用する。
実験の結果、MAPOは3つのベンチマーク(MSVAMP +16.2%、MGSM +6.1%、MNumGLUESub +13.3%)で様々なモデルの多言語推論を大幅に改善し、言語間の推論一貫性が向上した。
関連論文リスト
- The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
本稿では,大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメント手法を提案する。
実験結果から,質問アライメント手法は多様な推論シナリオにおける多言語のパフォーマンス向上に有効であることが示唆された。
その成功のメカニズムを理解するために、表現空間、チェーン・オブ・シンク、翻訳データスケールを分析する。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - Analyzing and Adapting Large Language Models for Few-Shot Multilingual
NLU: Are We There Yet? [82.02076369811402]
教師付きファインチューニング(SFT)、教師付きインストラクションチューニング(SIT)、インコンテキストラーニング(ICL)は、3つの代替であり、事実上の標準的アプローチである。
提案手法は,6つの高・低リソース言語,3つの異なるNLUタスク,多種多様な言語とドメインのセットアップを用いて,3つのアプローチを網羅的かつ体系的に比較する。
そこで本研究では,教師あり指導のチューニングが,性能とリソース要件の最良のトレードオフであることを示す。
論文 参考訳(メタデータ) (2024-03-04T10:48:13Z) - Exploring Multilingual Concepts of Human Value in Large Language Models: Is Value Alignment Consistent, Transferable and Controllable across Languages? [34.38469832305664]
異なる多言語性を持つ7種類の人的価値、16の言語、3のLLM系列を探索する。
これらの概念の言語間分析は、言語資源の相違から生じる3つの特徴を明らかにしている。
LLMの事前学習のための多言語データの合成について提案する。
論文 参考訳(メタデータ) (2024-02-28T07:18:39Z) - Unintended Impacts of LLM Alignment on Global Representation [70.42130533150728]
開発者は、RLHF(Reinforcement Learning From Human Feedback)やDPO(Direct Preference Optimization)など、様々な手順で、大規模言語モデル(LLM)をユーザの好みに合わせることができる。
我々は、アライメントが、グローバルな表現の3つの軸、すなわち、英語方言、多言語主義、世界各国の意見にどのように影響するかを探求する。
これらの意図しない影響に繋がる設計決定と、より公平な選好チューニングの推奨を議論することで、私たちは結論付けました。
論文 参考訳(メタデータ) (2024-02-22T23:31:22Z) - Beyond Static Models and Test Sets: Benchmarking the Potential of
Pre-trained Models Across Tasks and Languages [15.373725507698591]
本稿は,多言語評価における既存の実践を信頼できないものにし,言語環境全体にわたるMMLMの性能の全体像を提示していないことを論じる。
我々は,NLPタスクのパフォーマンス予測における最近の研究が,多言語NLPにおけるベンチマークの修正における潜在的な解決策となることを示唆する。
実験データと4つの異なる多言語データセットのケーススタディを比較し、これらの手法が翻訳に基づくアプローチとよく一致している性能の信頼性を推定できることを示した。
論文 参考訳(メタデータ) (2022-05-12T20:42:48Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - Gradient Vaccine: Investigating and Improving Multi-task Optimization in
Massively Multilingual Models [63.92643612630657]
本稿では、損失関数幾何学のレンズを通して多言語最適化のブラックボックスを覗き込もうとする。
最適化軌道に沿って測定された勾配類似性は重要な信号であり、言語近接とよく相関している。
そこで我々はGradient Vaccineというシンプルでスケーラブルな最適化手法を考案した。
論文 参考訳(メタデータ) (2020-10-12T17:26:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。