Fugu-MT 論文翻訳(概要): Synthesizing Post-Training Data for LLMs through Multi-Agent Simulation

論文の概要: Synthesizing Post-Training Data for LLMs through Multi-Agent Simulation

arxiv url: http://arxiv.org/abs/2410.14251v1
Date: Fri, 18 Oct 2024 08:01:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:37.379041
Title: Synthesizing Post-Training Data for LLMs through Multi-Agent Simulation
Title（参考訳）: マルチエージェントシミュレーションによるLCMの学習後データの合成
Authors: Shuo Tang, Xianghe Pang, Zexi Liu, Bohan Tang, Rui Ye, Xiaowen Dong, Yanfeng Wang, Siheng Chen,
Abstract要約: ポストトレーニングは、大きな言語モデルが人間の指示に従うことを可能にするために不可欠である。マルチエージェントシミュレーションを利用して、さまざまなテキストベースのシナリオを自動的に生成する。本稿では,シナリオ駆動型命令生成器MATRIX-Genを提案する。
参考スコア（独自算出の注目度）: 48.17611255751571
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Post-training is essential for enabling large language models (LLMs) to follow human instructions. Inspired by the recent success of using LLMs to simulate human society, we leverage multi-agent simulation to automatically generate diverse text-based scenarios, capturing a wide range of real-world human needs. We propose MATRIX, a multi-agent simulator that creates realistic and scalable scenarios. Leveraging these outputs, we introduce a novel scenario-driven instruction generator MATRIX-Gen for controllable and highly realistic data synthesis. Extensive experiments demonstrate that our framework effectively generates both general and domain-specific data. Notably, on AlpacaEval 2 and Arena-Hard benchmarks, Llama-3-8B-Base, post-trained on datasets synthesized by MATRIX-Gen with just 20K instruction-response pairs, outperforms Meta's Llama-3-8B-Instruct model, which was trained on over 10M pairs; see our project at https://github.com/ShuoTang123/MATRIX-Gen.
Abstract（参考訳）: 大規模言語モデル(LLM)が人間の指示に従うためには、ポストトレーニングが不可欠である。人間の社会をシミュレートするためにLLMを使った最近の成功に触発されて、我々はマルチエージェントシミュレーションを利用して、さまざまなテキストベースのシナリオを自動的に生成し、幅広い現実世界の人間のニーズを捉えました。現実的でスケーラブルなシナリオを生成するマルチエージェントシミュレータMATRIXを提案する。これらの出力を活用することで、制御可能かつ高現実的なデータ合成のためのシナリオ駆動型命令生成器MATRIX-Genを導入する。大規模な実験により、我々のフレームワークは汎用データとドメイン固有データの両方を効果的に生成することを示した。特に、AlpacaEval 2 と Arena-Hard ベンチマークでは、MATRIX-Gen によって合成されたデータセットで後トレーニングされた Llama-3-8B-Base が、たった 20K の命令応答ペアで、Meta の Llama-3-8B-Instruct モデルより優れている。

関連論文リスト

Follow-Your-Instruction: A Comprehensive MLLM Agent for World Data Synthesis [44.66179436245703]
Follow-Your-Instructionは、高品質な2D、3D、4Dデータを自動合成するフレームワークである。 3Dレイアウトを構築し、セマンティックリファインメントのためにビジョン・ランゲージ・モデル(VLM)を利用する。本研究では,2D,3D,4D生成タスクに関する総合的な実験を通じて,生成データの品質を評価する。
論文参考訳（メタデータ） (2025-08-07T17:12:54Z)
FASTGEN: Fast and Cost-Effective Synthetic Tabular Data Generation with LLMs [3.703188184729035]
合成データ生成は、現実のデータ収集と使用がコストと不足によって制限されるシナリオにおいて、重要なソリューションである。個々のレコードを生成するために大きな言語モデルを直接使用する既存のアプローチは、禁止時間とコスト負担を個別に課している。 LLMを利用して各フィールドの分布を再利用可能なサンプリングスクリプトに推論してエンコードする,現実的な表形式データ合成のための高速で費用対効果の高い手法を提案する。
論文参考訳（メタデータ） (2025-07-21T17:51:46Z)
RoboTwin 2.0: A Scalable Data Generator and Benchmark with Strong Domain Randomization for Robust Bimanual Robotic Manipulation [51.86515213749527]
本稿では,多様な実データの自動生成を可能にするスケーラブルなシミュレーションフレームワークであるRoboTwin 2.0を紹介する。 sim-to-real転送を改善するため、RoboTwin 2.0は5つの軸に沿って構造化されたドメインランダム化を組み込んでいる。このフレームワークは、5つのロボットエボディメントにまたがる50のデュアルアームタスクにまたがってインスタンス化されます。
論文参考訳（メタデータ） (2025-06-22T16:26:53Z)
LAM SIMULATOR: Advancing Data Generation for Large Action Model Training via Online Exploration and Trajectory Feedback [121.78866929908871]
AIエージェントのための大規模アクションモデル(LAM)は、素晴らしいポテンシャルを提供するが、高品質なトレーニングデータを必要とするため、課題に直面している。 LAM SIMULATORは,高品質なフィードバックによるエージェントタスクのオンライン探索を目的とした総合的なフレームワークである。本フレームワークは,動的タスククエリジェネレータ,広範囲なツールコレクション,および大規模言語モデル(LLM)エージェントがツールを呼び出し,リアルタイムフィードバックを受信できる対話型環境を備えている。
論文参考訳（メタデータ） (2025-06-02T22:36:02Z)
APIGen-MT: Agentic Pipeline for Multi-Turn Data Generation via Simulated Agent-Human Interplay [86.01901238059261]
APIGen-MTは検証可能で多様なマルチターンエージェントデータを生成するフレームワークである。 xLAM-2-fc-r 級数で 1B から 70B のパラメータを持つモデル群を訓練する。我々のモデルは、$tau$-benchとBFCLベンチマークでGPT-4oやClaude 3.5のようなフロンティアモデルより優れている。
論文参考訳（メタデータ） (2025-04-04T17:13:57Z)
Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文参考訳（メタデータ） (2024-10-22T06:43:28Z)
GenSim2: Scaling Robot Data Generation with Multi-modal and Reasoning LLMs [38.281562732050084]
GenSim2は、複雑で現実的なシミュレーションタスク作成のためのスケーラブルなフレームワークである。パイプラインは200のオブジェクトで最大100の調音タスクのデータを生成し、必要な人的労力を減らすことができる。我々は、生成したデータをゼロショット転送や実世界の収集データとの協調訓練に使用できる、GenSim2の有望な使用法を示す。
論文参考訳（メタデータ） (2024-10-04T17:51:33Z)
Align$^2$LLaVA: Cascaded Human and Large Language Model Preference Alignment for Multi-modal Instruction Curation [56.75665429851673]
本稿では,人間とLLMの選好アライメントという2つのユニークな視点から導いた,新しい命令キュレーションアルゴリズムを提案する。実験により,合成マルチモーダル命令を最大90%圧縮することにより,モデル性能の維持や改善が可能であることが示された。
論文参考訳（メタデータ） (2024-09-27T08:20:59Z)
Sparse Rewards Can Self-Train Dialogue Agents [22.799506097310008]
我々は,LLMエージェントに対して,外部からのフィードバックを伴わずに,自律的にパフォーマンスを向上させるための新たな自己改善パラダイムを導入する。我々はMultiWOZから派生したスパース報酬ツール呼び出しシミュレーション環境であるToolWOZを提案する。 JOSHでトレーニングされたモデルは、小規模でもフロンティアでも、ツールベースのインタラクションを大幅に改善し、さまざまなベンチマークで一般的なモデル機能を保持します。
論文参考訳（メタデータ） (2024-09-06T21:00:57Z)
Genixer: Empowering Multimodal Large Language Models as a Powerful Data Generator [63.762209407570715]
Genixerは4つの重要なステップからなる包括的なデータ生成パイプラインである。 LLaVA1.5でトレーニングされた合成VQAライクなデータセットは、12のマルチモーダルベンチマークのうち10のパフォーマンスを向上させる。タスク固有のデータセットで訓練されたMLLMは、複雑な命令チューニングデータを生成する際に、GPT-4Vを超えることができる。
論文参考訳（メタデータ） (2023-12-11T09:44:41Z)
Waymax: An Accelerated, Data-Driven Simulator for Large-Scale Autonomous Driving Research [76.93956925360638]
Waymaxは、マルチエージェントシーンにおける自動運転のための新しいデータ駆動シミュレータである。 TPU/GPUなどのハードウェアアクセラレータで完全に動作し、トレーニング用のグラフ内シミュレーションをサポートする。我々は、一般的な模倣と強化学習アルゴリズムのスイートをベンチマークし、異なる設計決定に関するアブレーション研究を行った。
論文参考訳（メタデータ） (2023-10-12T20:49:15Z)
GenSim: Generating Robotic Simulation Tasks via Large Language Models [34.79613485106202]
GenSimは、リッチなシミュレーション環境とエキスパートのデモを自動的に生成することを目指している。既存のベンチマークを10倍から100以上のタスクに拡張するために、GPT4を使用します。最小限のsim-to-real適応により、GPT4生成したシミュレーションタスクで事前訓練されたマルチタスクポリシーは、現実世界で目に見えないロングホライゾンタスクへのより強力な転送を示す。
論文参考訳（メタデータ） (2023-10-02T17:23:48Z)
MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文参考訳（メタデータ） (2023-08-25T01:41:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。