論文の概要: MASTER: Enhancing Large Language Model via Multi-Agent Simulated Teaching
- arxiv url: http://arxiv.org/abs/2506.02689v2
- Date: Wed, 04 Jun 2025 02:34:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 13:54:39.550183
- Title: MASTER: Enhancing Large Language Model via Multi-Agent Simulated Teaching
- Title(参考訳): MASTER:マルチエージェント・シミュレート・トレーニングによる大規模言語モデルの強化
- Authors: Liang Yue, Yihong Tang, Kehai Chen, Jie Liu, Min Zhang,
- Abstract要約: MASTERは、認知レベルが異なる複数のエージェント間の相互作用を通じて、元のデータを豊かにする新しいデータ拡張手法である。
私たちは、Orca-Math-200k、ProcQA、OpenHermes2.5といった既存のデータセットから強化された微調整データセットであるBOOST-QAを構築します。
実験により、BOOST-QAで微調整されたモデルは、複数のベンチマークで優れた性能を示し、強力なマルチタスクの一般化を示す。
- 参考スコア(独自算出の注目度): 24.350821306196877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction fine-tuning is crucial in NLP tasks, enhancing pretrained models' instruction-following capabilities and task-specific performance. However, obtaining high-quality fine-tuning data for large models is challenging due to data collection difficulties and high production costs. To address this, we propose MASTER, a novel data augmentation method that enriches original data through interactions among multiple agents with varying cognitive levels. We simulate three pedagogically grounded teaching scenarios, leveraging multi-agent conversations to generate high-quality teacher-student interaction data. Utilizing MASTER, we construct BOOST-QA, a fine-tuning dataset augmented from existing datasets like Orca-Math-200k, ProcQA, and OpenHermes2.5. Experiments show that models fine-tuned with BOOST-QA perform excellently across multiple benchmarks, demonstrating strong multitask generalization. Notably, MASTER significantly improves models' reasoning abilities in complex tasks, providing valuable insights for future research.
- Abstract(参考訳): インストラクションの微調整はNLPタスクにおいて重要であり、事前訓練されたモデルの命令追従能力とタスク固有の性能を向上させる。
しかし,データ収集の困難さや高生産コストのため,大規模モデルの高品質な微調整データを得ることは困難である。
そこで本稿では,認知レベルが異なる複数のエージェント間のインタラクションを通じて,オリジナルデータを充実させる新しいデータ拡張手法MASTERを提案する。
我々は,高質な教師と学生の対話データを生成するために,複数エージェントの会話を活用する3つの教育シナリオをシミュレートした。
MASTERを利用することで、Orca-Math-200k、ProcQA、OpenHermes2.5といった既存のデータセットから強化された微調整データセットであるBOOST-QAを構築します。
実験により、BOOST-QAで微調整されたモデルは、複数のベンチマークで優れた性能を示し、強力なマルチタスクの一般化を示す。
特に、MASTERは複雑なタスクにおけるモデルの推論能力を大幅に改善し、将来の研究に有用な洞察を提供する。
関連論文リスト
- LAM SIMULATOR: Advancing Data Generation for Large Action Model Training via Online Exploration and Trajectory Feedback [121.78866929908871]
AIエージェントのための大規模アクションモデル(LAM)は、素晴らしいポテンシャルを提供するが、高品質なトレーニングデータを必要とするため、課題に直面している。
LAM SIMULATORは,高品質なフィードバックによるエージェントタスクのオンライン探索を目的とした総合的なフレームワークである。
本フレームワークは,動的タスククエリジェネレータ,広範囲なツールコレクション,および大規模言語モデル(LLM)エージェントがツールを呼び出し,リアルタイムフィードバックを受信できる対話型環境を備えている。
論文 参考訳(メタデータ) (2025-06-02T22:36:02Z) - Language Models as Continuous Self-Evolving Data Engineers [32.67875951851165]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示している。
従来のトレーニングアプローチは、専門家ラベル付きデータに大きく依存しています。
我々はLANCEという新しいパラダイムを提案し、LLMはデータの自動生成、クリーニング、レビュー、注釈付けによって自らを訓練することができる。
論文 参考訳(メタデータ) (2024-12-19T18:28:41Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - Rethinking Data Synthesis: A Teacher Model Training Recipe with Interpretation [12.736045604858738]
大規模言語モデル(LLM)訓練の最近の進歩は、多種多様な高品質な命令データの必要性を強調している。
データ生成のためのモデルを具体的に訓練する方法を検討することにより、 textbfNOMAD というパラダイムシフトを提案する。
論文 参考訳(メタデータ) (2024-10-27T07:38:39Z) - Unleashing LLM Reasoning Capability via Scalable Question Synthesis from Scratch [54.12139707822201]
本稿では,新しい,スケーラブルで費用対効果の高いデータ合成手法であるScaleQuestを提案する。
スクラッチから多様な質問を生成することで、100万の問題解決ペアのデータセットを生成します。
私たちの実験では、データに基づいてトレーニングされたモデルが、既存のオープンソースデータセットより優れています。
論文 参考訳(メタデータ) (2024-10-24T12:42:04Z) - MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct [148.39859547619156]
我々は,新しいマルチモーダル命令データ進化フレームワークであるMMEvolを提案する。
MMEvolは、きめ細かい知覚、認知的推論、相互作用の進化の洗練された組み合わせによって、データ品質を反復的に改善する。
提案手法は,9つのタスクにおいて,最先端モデルに比べて有意に少ない精度でSOTA(State-of-the-art)性能を実現する。
論文 参考訳(メタデータ) (2024-09-09T17:44:00Z) - What are the Essential Factors in Crafting Effective Long Context Multi-Hop Instruction Datasets? Insights and Best Practices [91.71951459594074]
拡張コンテキストウィンドウを持つLong Language Model (LLM) は、情報抽出、質問応答、複雑な計画シナリオなどのタスクを大幅に改善した。
既存のメソッドは通常、Self-Instructフレームワークを使用して、長いコンテキスト能力を改善するために命令チューニングデータを生成する。
本稿では,品質検証エージェント,シングルホップ質問生成エージェント,複数質問サンプリング戦略,マルチホップ質問マーガーエージェントを組み込んだマルチエージェント対話型マルチホップ生成フレームワークを提案する。
以上の結果から,我々の合成高品位長文指導データにより,多量の人体で訓練したモデルよりも,モデル性能が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2024-09-03T13:30:00Z) - Genixer: Empowering Multimodal Large Language Models as a Powerful Data Generator [63.762209407570715]
Genixerは4つの重要なステップからなる包括的なデータ生成パイプラインである。
LLaVA1.5でトレーニングされた合成VQAライクなデータセットは、12のマルチモーダルベンチマークのうち10のパフォーマンスを向上させる。
タスク固有のデータセットで訓練されたMLLMは、複雑な命令チューニングデータを生成する際に、GPT-4Vを超えることができる。
論文 参考訳(メタデータ) (2023-12-11T09:44:41Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。