論文の概要: Matrix: Peer-to-Peer Multi-Agent Synthetic Data Generation Framework
- arxiv url: http://arxiv.org/abs/2511.21686v1
- Date: Wed, 26 Nov 2025 18:59:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.261403
- Title: Matrix: Peer-to-Peer Multi-Agent Synthetic Data Generation Framework
- Title(参考訳): Matrix: Peer-to-Peer Multi-Agent Synthetic Data Generation Framework
- Authors: Dong Wang, Yang Li, Ansong Ni, Ching-Feng Yeh, Youssef Emad, Xinjie Lei, Liam Robbins, Karthik Padthe, Hu Xu, Xian Li, Asli Celikyilmaz, Ramya Raghavendra, Lifei Huang, Carole-Jean Wu, Shang-Wen Li,
- Abstract要約: マルチエージェント合成のための分散フレームワークである textbf Matrix を提案する。
Matrixは、シリアライズされたメッセージが分散キューを通過するとき、制御とデータフローの両方を表す。
我々は、マルチエージェント協調対話、Webベースの推論データ抽出、顧客サービス環境におけるツール利用軌跡生成など、多様な合成シナリオにおいてMatrixを評価した。
- 参考スコア(独自算出の注目度): 32.3041485160475
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Synthetic data has become increasingly important for training large language models, especially when real data is scarce, expensive, or privacy-sensitive. Many such generation tasks require coordinated multi-agent workflows, where specialized agents collaborate to produce data that is higher quality, more diverse, and structurally richer. However, existing frameworks for multi-agent synthesis often depend on a centralized orchestrator, creating scalability bottlenecks, or are hardcoded for specific domains, limiting flexibility. We present \textbf{Matrix}, a decentralized framework that represents both control and data flow as serialized messages passed through distributed queues. This peer-to-peer design eliminates the central orchestrator. Each task progresses independently through lightweight agents, while compute-intensive operations, such as LLM inference or containerized environments, are handled by distributed services. Built on Ray, Matrix scales to tens of thousands of concurrent agentic workflows and provides a modular, configurable design that enables easy adaptation to a wide range of data generation workflows. We evaluate Matrix across diverse synthesis scenarios, such as multi-agent collaborative dialogue, web-based reasoning data extraction, and tool-use trajectory generation in customer service environments. In all cases, Matrix achieves $2$--$15\times$ higher data generation throughput under identical hardware resources, without compromising output quality.
- Abstract(参考訳): 特に、実際のデータが不足していて、高価で、プライバシに敏感な場合には、大規模な言語モデルのトレーニングには、合成データがますます重要になっています。
このような生成タスクの多くは、コーディネートされたマルチエージェントワークフローを必要としており、特殊なエージェントが協調して、より高い品質、より多様性、構造的にリッチなデータを生成する。
しかし、既存のマルチエージェント合成のためのフレームワークは、しばしば中央集権的なオーケストレータに依存し、スケーラビリティのボトルネックを発生させるか、特定のドメインのためにハードコードされ、柔軟性が制限される。
本稿では、分散キューに渡されるシリアライズされたメッセージとして、制御とデータフローの両方を表現する分散フレームワークである‘textbf{Matrix}を提示する。
このピアツーピア設計は、中央オーケストレータを排除します。
各タスクは軽量エージェントを通じて独立して進行し、LLM推論やコンテナ化された環境のような計算集約的な操作は分散サービスによって処理される。
Ray上に構築されたMatrixは、数万の並行エージェントワークフローにスケールし、幅広いデータ生成ワークフローへの容易に適応可能な、モジュール化された構成可能な設計を提供する。
我々は、マルチエージェント協調対話、Webベースの推論データ抽出、顧客サービス環境におけるツール利用軌跡生成など、多様な合成シナリオにおいてMatrixを評価した。
いずれの場合も、Matrixは出力品質を損なうことなく、同じハードウェアリソースの下で高いデータ生成スループットを実現する。
関連論文リスト
- Multi-Agent Tool-Integrated Policy Optimization [67.12841355267678]
大規模言語モデル(LLM)は、知識集約的かつ複雑な推論タスクに対して、多ターンツール統合計画にますます依存している。
既存の実装は通常、単一のエージェントに依存するが、コンテキスト長とノイズの多いツールレスポンスに悩まされる。
ツール統合マルチエージェントフレームワークの効果的な強化学習をサポートする方法はない。
論文 参考訳(メタデータ) (2025-10-06T10:44:04Z) - HAWK: A Hierarchical Workflow Framework for Multi-Agent Collaboration [3.2588674134593942]
マルチエージェントシステムは、クロスプラットフォームの相互運用性、動的タスクスケジューリング、効率的なリソース共有において永続的な課題に直面している。
階層型エージェント (Hawk) は, ユーザ, オペレータ, エージェント, リソースの5つのレイヤから構成され, 16の標準化インターフェースでサポートされているモジュール型フレームワークである。
Hawkはタスク解析、ワークフローオーケストレーション、インテリジェントスケジューリング、リソース呼び出し、データ同期をカバーしたエンドツーエンドパイプラインを提供する。
論文 参考訳(メタデータ) (2025-07-05T15:03:53Z) - Fine-tuning Multimodal Transformers on Edge: A Parallel Split Learning Approach [1.297210402524609]
Split Learningは、指定されたカット層でモデルをパーティションして、計算集約的な操作をサーバにオフロードする。
本稿では,マルチモーダル変圧器を分散的に微調整する並列SL手法MPSLを提案する。
MPSLは軽量なクライアント側トークンライザと統一されたモダリティ非依存エンコーダを採用しており、タスク固有のニーズへの柔軟な適応を可能にしている。
論文 参考訳(メタデータ) (2025-02-10T11:10:41Z) - A Collaborative Multi-Agent Approach to Retrieval-Augmented Generation Across Diverse Data [0.0]
Retrieval-Augmented Generation (RAG)はLarge Language Models (LLM)を強化する
従来のRAGシステムでは、クエリ生成、データ検索、レスポンス合成に単一エージェントアーキテクチャを使用するのが一般的である。
本稿では,これらの制約に対処するマルチエージェントRAGシステムを提案する。
論文 参考訳(メタデータ) (2024-12-08T07:18:19Z) - Very Large-Scale Multi-Agent Simulation in AgentScope [112.98986800070581]
我々は,ユーザフレンドリーなマルチエージェントプラットフォームであるAgentScopeの新機能とコンポーネントを開発した。
高いスケーラビリティと高効率を実現するために,アクタをベースとした分散機構を提案する。
また、多数のエージェントを便利に監視し、管理するためのWebベースのインターフェースも提供します。
論文 参考訳(メタデータ) (2024-07-25T05:50:46Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - Multi-modal AsynDGAN: Learn From Distributed Medical Image Data without
Sharing Private Information [55.866673486753115]
プライバシーとセキュリティを守るために拡張可能で弾力性のある学習フレームワークを提案します。
提案するフレームワークは分散Asynchronized Discriminator Generative Adrial Networks (AsynDGAN) である。
論文 参考訳(メタデータ) (2020-12-15T20:41:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。