Fugu-MT 論文翻訳(概要): MAPO: Advancing Multilingual Reasoning through Multilingual Alignment-as-Preference Optimization

論文の概要: MAPO: Advancing Multilingual Reasoning through Multilingual Alignment-as-Preference Optimization

arxiv url: http://arxiv.org/abs/2401.06838v1
Date: Fri, 12 Jan 2024 18:03:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-17 21:10:04.491105
Title: MAPO: Advancing Multilingual Reasoning through Multilingual Alignment-as-Preference Optimization
Title（参考訳）: MAPO:マルチリンガルアライメント・アズ・プレフレクション最適化によるマルチリンガル推論の改善
Authors: Shuaijie She, Shujian Huang, Wei Zou, Wenhao Zhu, Xiang Liu, Xiang Geng, Jiajun Chen
Abstract要約: 非ピボット言語における推論能力を高めるためのアライメント・アズ・参照最適化フレームワークを提案する。実験により,本手法はモデルの多言語推論を大幅に改善し,言語間の推論一貫性が向上することが示された。
参考スコア（独自算出の注目度）: 68.58933983362334
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Though reasoning abilities are considered language-agnostic, existing LLMs exhibit inconsistent reasoning abilities across different languages, e.g., reasoning in a pivot language is superior to other languages due to the imbalance of multilingual training data.To enhance reasoning abilities in non-pivot languages, we propose an alignment-as-preference optimization framework. Specifically, we adopt an open-source translation model to estimate the consistency between answers in non-pivot and pivot languages. We further adopt the answer consistency as the preference for DPO or PPO thus optimizing the lesser reasoning. Experiments show that our method significantly improves the model's multilingual reasoning, with better reasoning consistency across languages. Our framework achieved a 13.7% accuracy improvement on out-of-domain datasets MSVAMP while preserving the competitive performance on MGSM. Moreover, we find that iterative DPO is helpful for further alignment and improvement of the model's multilingual mathematical reasoning ability, further pushing the improvement to 16.7%
Abstract（参考訳）: 推論能力は言語に依存しないと考えられるが、既存のLCMでは多言語学習データの不均衡により、ピボット言語における推論能力は他の言語よりも優れており、非ピボット言語における推論能力を高めるために、アライメント・アズ・参照最適化フレームワークを提案する。具体的には,非ピボット言語とピボット言語における回答間の一貫性を推定するために,オープンソースの翻訳モデルを採用する。さらに、解の一貫性をDPOやPPOの選好として採用し、より少ない推論を最適化する。実験により,複数の言語間の一貫性が向上し,モデルの多言語推論が大幅に向上することを示した。 MGSMの競合性能を維持しつつ,ドメイン外のデータセットMSVAMPに対して13.7%の精度向上を実現した。さらに、反復的DPOは、モデルの多言語数学的推論能力のさらなる調整と改善に役立ち、さらに16.7%に改善を推し進める。

関連論文リスト

When Less Language is More: Language-Reasoning Disentanglement Makes LLMs Better Multilingual Reasoners [111.50503126693444]
言語固有のアブレーションは多言語推論性能を継続的に向上させることを示す。トレーニング後のアブレーションと比較して、トレーニング不要のアブレーションは、計算オーバーヘッドを最小限に抑えながら、同等または優れた結果が得られる。
論文参考訳（メタデータ） (2025-05-21T08:35:05Z)
M-Prometheus: A Suite of Open Multilingual LLM Judges [64.22940792713713]
M-Prometheusは,多言語出力の直接評価とペア比較フィードバックを両立できるオープンウェイトLLM判定器のスイートである。 M-Prometheusモデルは、20以上の言語にまたがる多言語報酬ベンチマークや、4つの言語対をカバーする文語機械翻訳(MT)評価において、最先端のLLM判事より優れている。
論文参考訳（メタデータ） (2025-04-07T11:37:26Z)
Balanced Multi-Factor In-Context Learning for Multilingual Large Language Models [53.38288894305388]
MLLM(Multilingual Large Language Model)は,言語間知識伝達をパラメータ更新なしで活用することにより,文脈内学習(ICL)を活用して高い性能を実現する。 1) 意味的類似性,(2) 言語的アライメント,(3) 言語固有のパフォーマンスの3つの要因が多言語ICLに影響を与える。我々は,これらの因子を定量化し,最適にバランスをとる手法として,バランスの取れた多要素ICL(textbfBMF-ICL)を提案する。
論文参考訳（メタデータ） (2025-02-17T06:56:33Z)
The Multilingual Mind : A Survey of Multilingual Reasoning in Language Models [18.399229357408043]
多言語推論は言語間の論理的推論を扱うために言語モデルを必要とする。この調査は、言語モデルにおける多言語推論に関する、最初の詳細なレビューを提供する。
論文参考訳（メタデータ） (2025-02-13T16:25:16Z)
AdaCoT: Rethinking Cross-Lingual Factual Reasoning through Adaptive Chain-of-Thought [19.692743208974296]
我々は多言語推論を強化するフレームワークであるAdaCoT(Adaptive Chain-of-Thought)を紹介する。 AdaCoTは、ターゲット言語応答を生成する前に、中間的な"思考言語"を通して思考プロセスを動的にルーティングする。
論文参考訳（メタデータ） (2025-01-27T15:48:57Z)
ShifCon: Enhancing Non-Dominant Language Capabilities with a Shift-based Contrastive Framework [79.72910257530795]
ShifConはShiftベースのContrastiveフレームワークで、他の言語の内部の前進プロセスを支配的な言語に合わせる。非支配的な言語の表現を支配的な言語サブスペースに移行し、モデルパラメータにエンコードされた比較的リッチな情報にアクセスできるようにする。実験により、我々のShifConフレームワークは、非支配言語の性能を大幅に向上させることが示された。
論文参考訳（メタデータ） (2024-10-25T10:28:59Z)
Language Imbalance Driven Rewarding for Multilingual Self-improving [35.1576728251478]
大規模言語モデル(LLM)は多くのタスクで最先端のパフォーマンスを達成した。この不均衡は、より広範なアプリケーションを制限する一方で、言語間の自然な選好ランキングを生成する。我々は、支配的言語と非支配的言語との間の固有の不均衡を報酬信号として活用する、$textitLanguage Im Balance Driven Rewarding$を提案する。
論文参考訳（メタデータ） (2024-10-11T16:32:05Z)
X-ALMA: Plug & Play Modules and Adaptive Rejection for Quality Translation at Scale [25.257770733168012]
大規模言語モデル(LLM)は、様々なNLPタスクで顕著な成功を収めてきたが、主に英語に焦点を当てている。本稿では,多言語機械翻訳タスクに着目し,言語数よりも品質を優先する。 X-ALMAは、リソースレベルに関係なく、50の異なる言語で最高のパフォーマンスを保証することを約束するモデルである。
論文参考訳（メタデータ） (2024-10-04T03:17:27Z)
Preference Tuning For Toxicity Mitigation Generalizes Across Languages [17.784213168942117]
本研究は、多言語大言語モデルにおける選好チューニングのゼロショット言語間一般化について考察する。我々は,英語データのみを用いた直接選好最適化学習が,多言語オープンエンド世代における毒性を著しく低下させることを実証した。
論文参考訳（メタデータ） (2024-06-23T22:53:47Z)
mCoT: Multilingual Instruction Tuning for Reasoning Consistency in Language Models [21.616940026409818]
大規模言語モデル(LLM)とChain-of-Thought(CoT)は、最近、下流タスクを改善するために推論を誘発する強力なテクニックとして登場した。オープンソース LLM を用いて,多言語間の多言語推論の整合性について検討する。言語間の推論能力を向上させるため,多言語CoT命令チューニングを導入し,モデルの整合性を向上させる。
論文参考訳（メタデータ） (2024-06-04T13:30:45Z)
Analyzing and Adapting Large Language Models for Few-Shot Multilingual NLU: Are We There Yet? [82.02076369811402]
教師付きファインチューニング(SFT)、教師付きインストラクションチューニング(SIT)、インコンテキストラーニング(ICL)は、3つの代替であり、事実上の標準的アプローチである。提案手法は,6つの高・低リソース言語,3つの異なるNLUタスク,多種多様な言語とドメインのセットアップを用いて,3つのアプローチを網羅的かつ体系的に比較する。そこで本研究では,教師あり指導のチューニングが,性能とリソース要件の最良のトレードオフであることを示す。
論文参考訳（メタデータ） (2024-03-04T10:48:13Z)
Unintended Impacts of LLM Alignment on Global Representation [62.6579934112071]
開発者は、RLHF(Reinforcement Learning From Human Feedback)やDPO(Direct Preference Optimization)など、様々な手順で、大規模言語モデル(LLM)をユーザの好みに合わせることができる。我々は、アライメントが、グローバルな表現の3つの軸、すなわち、英語方言、多言語主義、世界各国の意見にどのように影響するかを探求する。これらの意図しない影響に繋がる設計決定と、より公平な選好チューニングの推奨を議論することで、私たちは結論付けました。
論文参考訳（メタデータ） (2024-02-22T23:31:22Z)
Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文参考訳（メタデータ） (2021-09-09T03:48:35Z)
Gradient Vaccine: Investigating and Improving Multi-task Optimization in Massively Multilingual Models [63.92643612630657]
本稿では、損失関数幾何学のレンズを通して多言語最適化のブラックボックスを覗き込もうとする。最適化軌道に沿って測定された勾配類似性は重要な信号であり、言語近接とよく相関している。そこで我々はGradient Vaccineというシンプルでスケーラブルな最適化手法を考案した。
論文参考訳（メタデータ） (2020-10-12T17:26:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。