論文の概要: Mars-PO: Multi-Agent Reasoning System Preference Optimization
- arxiv url: http://arxiv.org/abs/2411.19039v1
- Date: Thu, 28 Nov 2024 10:35:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:20:40.325184
- Title: Mars-PO: Multi-Agent Reasoning System Preference Optimization
- Title(参考訳): Mars-PO:マルチエージェント推論システム優先最適化
- Authors: Xiaoxuan Lou, Chaojie Wang, Bo An,
- Abstract要約: 大規模言語モデル(LLM)の数学的推論能力を改善するための新しいフレームワークであるMars-POを提案する。
複数のエージェントからの高品質な出力をハイブリッドな正のサンプルセットに組み合わせ、エージェント固有の負のサンプルと組み合わせて、トレーニングのための堅牢な選好ペアを構築する。
個々の弱点に対処しながら、エージェントを共有陽性のサンプルと整列させることで、Mars-POは数学的推論ベンチマークで大幅なパフォーマンス向上を実現している。
- 参考スコア(独自算出の注目度): 16.145823558485393
- License:
- Abstract: Mathematical reasoning is a fundamental capability for large language models (LLMs), yet achieving high performance in this domain remains a significant challenge. The auto-regressive generation process often makes LLMs susceptible to errors, hallucinations, and inconsistencies, particularly during multi-step reasoning. In this paper, we propose Mars-PO, a novel framework to improve the mathematical reasoning capabilities of LLMs through a multi-agent system. It combines high-quality outputs from multiple agents into a hybrid positive sample set and pairs them with agent-specific negative samples to construct robust preference pairs for training. By aligning agents with shared positive samples while addressing individual weaknesses, Mars-PO achieves substantial performance improvements on mathematical reasoning benchmarks. For example, it increases the accuracy on the MATH benchmark of the state-of-the-art instruction-tuned LLM, Llama3.1-8B-Instruct, from 50.38% to 57.82%. Experimental results further demonstrate that our method consistently outperforms other baselines, such as supervised fine-tuning, vanilla DPO, and its enhanced versions, highlighting the effectiveness of our approach.
- Abstract(参考訳): 数学的推論は大規模言語モデル(LLM)の基本的な機能であるが、この領域で高いパフォーマンスを達成することは依然として大きな課題である。
自己回帰生成プロセスは、特に多段階の推論において、LLMを誤り、幻覚、矛盾に敏感にすることが多い。
本稿では,マルチエージェントシステムによるLLMの数学的推論能力向上のための新しいフレームワークであるMars-POを提案する。
複数のエージェントからの高品質な出力をハイブリッドな正のサンプルセットに組み合わせ、エージェント固有の負のサンプルと組み合わせて、トレーニングのための堅牢な選好ペアを構築する。
個々の弱点に対処しながら、エージェントを共有陽性のサンプルと整列させることで、Mars-POは数学的推論ベンチマークで大幅なパフォーマンス向上を実現している。
例えば、最先端のLLMであるLlama3.1-8B-InstructのMATHベンチマークの精度を50.38%から57.82%に向上させる。
さらに,本手法は,教師付き微調整,バニラDPO,拡張バージョンなど,他のベースラインよりも優れた性能を示し,本手法の有効性を強調した。
関連論文リスト
- MALT: Improving Reasoning with Multi-Agent LLM Training [64.13803241218886]
推論問題に対するマルチエージェントLLMトレーニング(MALT)に向けた第一歩を提示する。
提案手法では,ヘテロジニアスLSMが割り当てられた逐次的マルチエージェント構成を用いる。
我々は,MATH,GSM8k,CQAにまたがるアプローチを評価し,MALT on Llama 3.1 8Bモデルでそれぞれ14.14%,7.12%,9.40%の相対的な改善を実現した。
論文 参考訳(メタデータ) (2024-12-02T19:30:36Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - A Gradient Analysis Framework for Rewarding Good and Penalizing Bad Examples in Language Models [63.949883238901414]
本稿では,損失関数の勾配解析の特異な角度について述べる。
ExMATEはMLEの優れたサロゲートであり,DPOとMLEの代わりにExMATEを組み合わせることで,統計的(5-7%)と生成的(+18%)の性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-29T17:46:18Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - AlphaMath Almost Zero: Process Supervision without Process [6.318873143509028]
我々はモンテカルロ木探索(MCTS)を活用することによってプロセスアノテーションの必要性を回避できる革新的なフレームワークAlphaMathを提案する。
このフレームワークは、その数学的推論を自律的に強化する、よく訓練されたLLMの可能性を解き放つことに焦点を当てている。
ドメイン内データセットとドメイン外データセットの両方の実験結果から,GPT-4や人手によるプロセス監視がなくても,AlphaMathフレームワークは従来の最先端手法と同等あるいは優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2024-05-06T15:20:30Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - Model-based Multi-agent Policy Optimization with Adaptive Opponent-wise
Rollouts [52.844741540236285]
マルチエージェント強化学習(MARL)におけるモデルベース手法について検討する。
AORPO(Adaptive Opponent-wise Rollout Policy)と呼ばれる新しい分散型モデルベースのMARL法を提案する。
論文 参考訳(メタデータ) (2021-05-07T16:20:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。