Fugu-MT 論文翻訳(概要): MAPO: Advancing Multilingual Reasoning through Multilingual Alignment-as-Preference Optimization

論文の概要: MAPO: Advancing Multilingual Reasoning through Multilingual Alignment-as-Preference Optimization

arxiv url: http://arxiv.org/abs/2401.06838v2
Date: Thu, 22 Feb 2024 12:58:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-23 18:01:43.780473
Title: MAPO: Advancing Multilingual Reasoning through Multilingual Alignment-as-Preference Optimization
Title（参考訳）: MAPO:マルチリンガルアライメント・アズ・プレフレクション最適化によるマルチリンガル推論の改善
Authors: Shuaijie She, Wei Zou, Shujian Huang, Wenhao Zhu, Xiang Liu, Xiang Geng, Jiajun Chen
Abstract要約: 本稿では,他言語の推論過程を支配言語と整合させるために,MAPO(Multilingual-Alignment-as-Preference Optimization)フレームワークを提案する。具体的には,非支配言語と支配言語における回答の整合性について,既成の翻訳モデルを用いて検討する。実験により、MAPOは様々なモデルの多言語推論において、安定して大幅な改善を達成できることが示された。
参考スコア（独自算出の注目度）: 68.58933983362334
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Though reasoning abilities are considered language-agnostic, existing LLMs exhibit inconsistent reasoning abilities across different languages, e.g., reasoning in the dominant language like English is superior to other languages due to the imbalance of multilingual training data. To enhance reasoning abilities in non-dominant languages, we propose a Multilingual-Alignment-as-Preference Optimization framework (MAPO), aiming to align the reasoning processes in other languages with the dominant language. Specifically, we harness an off-the-shelf translation model for the consistency between answers in non-dominant and dominant languages, which we adopt as the preference for optimization, e.g., Direct Preference Optimization (DPO) or Proximal Policy Optimization (PPO). Experiments show that MAPO stably achieves significant improvements in the multilingual reasoning of various models on all three benchmarks (MSVAMP +16.2%, MGSM +6.1%, and MNumGLUESub +13.3%), with improved reasoning consistency across languages.
Abstract（参考訳）: 推論能力は言語に依存しないと考えられているが、既存のllmは、英語のような支配的な言語における推論は、多言語訓練データの不均衡のため、他言語よりも優れているなど、異なる言語間で一貫性のない推論能力を示している。非支配言語における推論能力を高めるために,他言語における推論プロセスと支配言語との整合性を図るために,MAPO(Multilingual-Alignment-as-Preference Optimization framework)を提案する。具体的には,非支配的言語と支配的言語における回答の一貫性にオフ・ザ・シェルフ翻訳モデルを適用し,最適化の選好として,例えばdirect preference optimization(dpo)やproximal policy optimization(ppo)を採用する。実験の結果、MAPOは3つのベンチマーク(MSVAMP +16.2%、MGSM +6.1%、MNumGLUESub +13.3%)で様々なモデルの多言語推論を大幅に改善し、言語間の推論一貫性が向上した。

関連論文リスト

When Less Language is More: Language-Reasoning Disentanglement Makes LLMs Better Multilingual Reasoners [111.50503126693444]
言語固有のアブレーションは多言語推論性能を継続的に向上させることを示す。トレーニング後のアブレーションと比較して、トレーニング不要のアブレーションは、計算オーバーヘッドを最小限に抑えながら、同等または優れた結果が得られる。
論文参考訳（メタデータ） (2025-05-21T08:35:05Z)
M-Prometheus: A Suite of Open Multilingual LLM Judges [64.22940792713713]
M-Prometheusは,多言語出力の直接評価とペア比較フィードバックを両立できるオープンウェイトLLM判定器のスイートである。 M-Prometheusモデルは、20以上の言語にまたがる多言語報酬ベンチマークや、4つの言語対をカバーする文語機械翻訳(MT)評価において、最先端のLLM判事より優れている。
論文参考訳（メタデータ） (2025-04-07T11:37:26Z)
Balanced Multi-Factor In-Context Learning for Multilingual Large Language Models [53.38288894305388]
MLLM(Multilingual Large Language Model)は,言語間知識伝達をパラメータ更新なしで活用することにより,文脈内学習(ICL)を活用して高い性能を実現する。 1) 意味的類似性,(2) 言語的アライメント,(3) 言語固有のパフォーマンスの3つの要因が多言語ICLに影響を与える。我々は,これらの因子を定量化し,最適にバランスをとる手法として,バランスの取れた多要素ICL(textbfBMF-ICL)を提案する。
論文参考訳（メタデータ） (2025-02-17T06:56:33Z)
The Multilingual Mind : A Survey of Multilingual Reasoning in Language Models [18.399229357408043]
多言語推論は言語間の論理的推論を扱うために言語モデルを必要とする。この調査は、言語モデルにおける多言語推論に関する、最初の詳細なレビューを提供する。
論文参考訳（メタデータ） (2025-02-13T16:25:16Z)
AdaCoT: Rethinking Cross-Lingual Factual Reasoning through Adaptive Chain-of-Thought [19.692743208974296]
我々は多言語推論を強化するフレームワークであるAdaCoT(Adaptive Chain-of-Thought)を紹介する。 AdaCoTは、ターゲット言語応答を生成する前に、中間的な"思考言語"を通して思考プロセスを動的にルーティングする。
論文参考訳（メタデータ） (2025-01-27T15:48:57Z)
ShifCon: Enhancing Non-Dominant Language Capabilities with a Shift-based Contrastive Framework [79.72910257530795]
ShifConはShiftベースのContrastiveフレームワークで、他の言語の内部の前進プロセスを支配的な言語に合わせる。非支配的な言語の表現を支配的な言語サブスペースに移行し、モデルパラメータにエンコードされた比較的リッチな情報にアクセスできるようにする。実験により、我々のShifConフレームワークは、非支配言語の性能を大幅に向上させることが示された。
論文参考訳（メタデータ） (2024-10-25T10:28:59Z)
Language Imbalance Driven Rewarding for Multilingual Self-improving [35.1576728251478]
大規模言語モデル(LLM)は多くのタスクで最先端のパフォーマンスを達成した。この不均衡は、より広範なアプリケーションを制限する一方で、言語間の自然な選好ランキングを生成する。我々は、支配的言語と非支配的言語との間の固有の不均衡を報酬信号として活用する、$textitLanguage Im Balance Driven Rewarding$を提案する。
論文参考訳（メタデータ） (2024-10-11T16:32:05Z)
X-ALMA: Plug & Play Modules and Adaptive Rejection for Quality Translation at Scale [25.257770733168012]
大規模言語モデル(LLM)は、様々なNLPタスクで顕著な成功を収めてきたが、主に英語に焦点を当てている。本稿では,多言語機械翻訳タスクに着目し,言語数よりも品質を優先する。 X-ALMAは、リソースレベルに関係なく、50の異なる言語で最高のパフォーマンスを保証することを約束するモデルである。
論文参考訳（メタデータ） (2024-10-04T03:17:27Z)
Preference Tuning For Toxicity Mitigation Generalizes Across Languages [17.784213168942117]
本研究は、多言語大言語モデルにおける選好チューニングのゼロショット言語間一般化について考察する。我々は,英語データのみを用いた直接選好最適化学習が,多言語オープンエンド世代における毒性を著しく低下させることを実証した。
論文参考訳（メタデータ） (2024-06-23T22:53:47Z)
mCoT: Multilingual Instruction Tuning for Reasoning Consistency in Language Models [21.616940026409818]
大規模言語モデル(LLM)とChain-of-Thought(CoT)は、最近、下流タスクを改善するために推論を誘発する強力なテクニックとして登場した。オープンソース LLM を用いて,多言語間の多言語推論の整合性について検討する。言語間の推論能力を向上させるため,多言語CoT命令チューニングを導入し,モデルの整合性を向上させる。
論文参考訳（メタデータ） (2024-06-04T13:30:45Z)
Analyzing and Adapting Large Language Models for Few-Shot Multilingual NLU: Are We There Yet? [82.02076369811402]
教師付きファインチューニング(SFT)、教師付きインストラクションチューニング(SIT)、インコンテキストラーニング(ICL)は、3つの代替であり、事実上の標準的アプローチである。提案手法は,6つの高・低リソース言語,3つの異なるNLUタスク,多種多様な言語とドメインのセットアップを用いて,3つのアプローチを網羅的かつ体系的に比較する。そこで本研究では,教師あり指導のチューニングが,性能とリソース要件の最良のトレードオフであることを示す。
論文参考訳（メタデータ） (2024-03-04T10:48:13Z)
Unintended Impacts of LLM Alignment on Global Representation [62.6579934112071]
開発者は、RLHF(Reinforcement Learning From Human Feedback)やDPO(Direct Preference Optimization)など、様々な手順で、大規模言語モデル(LLM)をユーザの好みに合わせることができる。我々は、アライメントが、グローバルな表現の3つの軸、すなわち、英語方言、多言語主義、世界各国の意見にどのように影響するかを探求する。これらの意図しない影響に繋がる設計決定と、より公平な選好チューニングの推奨を議論することで、私たちは結論付けました。
論文参考訳（メタデータ） (2024-02-22T23:31:22Z)
Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文参考訳（メタデータ） (2021-09-09T03:48:35Z)
Gradient Vaccine: Investigating and Improving Multi-task Optimization in Massively Multilingual Models [63.92643612630657]
本稿では、損失関数幾何学のレンズを通して多言語最適化のブラックボックスを覗き込もうとする。最適化軌道に沿って測定された勾配類似性は重要な信号であり、言語近接とよく相関している。そこで我々はGradient Vaccineというシンプルでスケーラブルな最適化手法を考案した。
論文参考訳（メタデータ） (2020-10-12T17:26:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。