論文の概要: MOSAIC: A Unified Platform for Cross-Paradigm Comparison and Evaluation of Homogeneous and Heterogeneous Multi-Agent RL, LLM, VLM, and Human Decision-Makers
- arxiv url: http://arxiv.org/abs/2603.01260v1
- Date: Sun, 01 Mar 2026 20:33:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.595136
- Title: MOSAIC: A Unified Platform for Cross-Paradigm Comparison and Evaluation of Homogeneous and Heterogeneous Multi-Agent RL, LLM, VLM, and Human Decision-Makers
- Title(参考訳): MOSAIC: 異種・異種マルチエージェントRL, LLM, VLM, および人的意思決定者の相互比較と評価のための統一プラットフォーム
- Authors: Abdulhamid M. Mousa, Yu Fu, Rakhmonberdi Khajiev, Jalaledin M. Azzabi, Abdulkarim M. Mousa, Peng Yang, Yunusa Haruna, Ming Liu,
- Abstract要約: 強化学習(RL)、大規模言語モデル(LLM)、視覚言語モデル(VLM)は独立して広く研究されている。
既存のインフラストラクチャには、異なる意思決定パラダイムからエージェントを同じ環境にデプロイする能力がない。
このギャップを埋めるオープンソースのプラットフォームであるMOSAICを紹介します。
- 参考スコア(独自算出の注目度): 8.910641383873353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL), large language models (LLMs), and vision-language models (VLMs) have been widely studied in isolation. However, existing infrastructure lacks the ability to deploy agents from different decision-making paradigms within the same environment, making it difficult to study them in hybrid multi-agent settings or to compare their behaviour fairly under identical conditions. We present MOSAIC, an open-source platform that bridges this gap by incorporating a diverse set of existing reinforcement learning environments and enabling heterogeneous agents (RL policies, LLMs, VLMs, and human players) to operate within them in ad-hoc team settings with reproducible results. MOSAIC introduces three contributions. (i) An IPC-based worker protocol that wraps both native and third-party frameworks as isolated subprocess workers, each executing its native training and inference logic unmodified, communicating through a versioned inter-process protocol. (ii) An operator abstraction that forms an agent-level interface by mapping workers to agents: each operator, regardless of whether it is backed by an RL policy, an LLM, or a human, conforms to a minimal unified interface. (iii) A deterministic cross-paradigm evaluation framework offering two complementary modes: a manual mode that advances up to N concurrent operators in lock-step under shared seeds for fine-grained visual inspection of behavioural differences, and a script mode that drives automated, long-running evaluation through declarative Python scripts, for reproducible experiments. We release MOSAIC as an open, visual-first platform to facilitate reproducible cross-paradigm research across the RL, LLM, and human-in-the-loop communities.
- Abstract(参考訳): 強化学習(RL)、大規模言語モデル(LLM)、視覚言語モデル(VLM)は独立して広く研究されている。
しかし、既存のインフラは、異なる意思決定パラダイムからエージェントを同じ環境に配置する能力に欠けており、それらをハイブリッドマルチエージェント環境で研究したり、同じ条件下でそれらの動作を比較することは困難である。
このギャップを埋めるオープンソースプラットフォームであるMOSAICを提案する。既存の強化学習環境を多種多様に組み込んで、再現性のあるチーム設定で異種エージェント(RLポリシー、LLM、VLM、人間プレイヤー)を運用可能にする。
MOSAICは3つのコントリビューションを紹介します。
i) IPCベースのワーカプロトコルで、ネイティブフレームワークとサードパーティフレームワークを分離されたサブプロセスワーカとしてラップし、それぞれがネイティブトレーニングと推論ロジックを変更せずに実行し、バージョン付きプロセス間プロトコルを介して通信する。
2) 作業員をエージェントにマッピングすることでエージェントレベルのインターフェースを形成する操作者抽象化: RL ポリシーや LLM ,あるいは人間によらず,各操作者は最小限の統一インターフェースに適合する。
3 決定論的クロスパラダイム評価フレームワークは、2つの相補的なモードを提供する: 共有シード下のロックステップでN個の並行演算子に昇格する手動モード 行動の違いをきめ細かな視覚的に検査する スクリプトモード 宣言的Pythonスクリプトによる自動的長期評価を再現可能な実験のために駆動するスクリプトモード。
我々はMOSAICをオープンなビジュアルファーストなプラットフォームとしてリリースし、RL, LLM, 人間-イン-ザ-ループコミュニティ間の再現可能なクロスパラダイム研究を促進する。
関連論文リスト
- MARTI-MARS$^2$: Scaling Multi-Agent Self-Search via Reinforcement Learning for Code Generation [64.2621682259008]
セルフサーチスケーリングによるマルチエージェント強化トレーニングと推論フレームワーク(MARTI-MARS2)
本稿では,MARTI-MARS2を用いたマルチエージェント強化学習・推論フレームワークを提案する。
我々は、MARTI-MARS2が77.7%を獲得し、GPT-5.1のような強力なベースラインを、挑戦的なコード生成ベンチマークで上回っていることを示す。
論文 参考訳(メタデータ) (2026-02-08T07:28:44Z) - PC2P: Multi-Agent Path Finding via Personalized-Enhanced Communication and Crowd Perception [12.114711272142031]
PC2Pは、QラーニングベースのMARLフレームワークから派生した、新しい分散MAPF手法である。
動的グラフトポロジに基づくパーソナライズされたコミュニケーション機構を提案する。
致命的なデッドロック問題を解決するために,我々は地域ベースのデッドロック破滅戦略を提案する。
論文 参考訳(メタデータ) (2026-01-06T03:11:26Z) - Agent2World: Learning to Generate Symbolic World Models via Adaptive Multi-Agent Feedback [51.22403664895878]
Agent2Worldは、強力な推論時ワールドモデル生成を実現するツール拡張マルチエージェントフレームワークである。
また、マルチエージェントフィードバックの生成を基盤にすることで、教師付き微調整のためのデータエンジンとしても機能する。
論文 参考訳(メタデータ) (2025-12-26T18:54:14Z) - Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting [92.57796055887995]
本稿では,言語モデルエージェントの強化学習から後視体験のリプレイに適応するプロンプトフレームワークECHOを紹介する。
ECHOは失敗した試みで達成できた代替目標のために最適化された軌道を生成する。
我々は、テキストベースのナビゲーションと計画ベンチマークであるXMiniGridのステートフルバージョンと、協調的な情報収集企業シミュレーションであるPeopleJoinQAについて、ECHOを評価した。
論文 参考訳(メタデータ) (2025-10-11T18:11:09Z) - MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。
MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。
完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文 参考訳(メタデータ) (2025-05-12T17:35:43Z) - Advancing Language Multi-Agent Learning with Credit Re-Assignment for Interactive Environment Generalization [38.68388721203677]
我々は,新しいマルチエージェントクレジット再割り当て戦略を備えたマルチエージェント強化学習フレームワークであるCollabUIAgentsを提案する。
我々は,マルチエージェントシステムの性能と環境横断の一般化性を両立させることを実証した。
論文 参考訳(メタデータ) (2025-02-20T12:26:15Z) - Cooperative Multi-Agent Planning with Adaptive Skill Synthesis [16.228784877899976]
本稿では、視覚言語モデル(VLM)を動的スキルライブラリと統合し、分散化されたクローズドループ決定のための構造化通信を行う新しいマルチエージェントアーキテクチャを提案する。
デモからブートストラップされたスキルライブラリは、プラナー誘導タスクを通じて進化し、適応戦略を実現する。
我々は、その最先端のMARLベースラインに対して、対称シナリオと非対称シナリオの両方で強力な性能を示す。
論文 参考訳(メタデータ) (2025-02-14T13:23:18Z) - Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - Macro-Action-Based Multi-Agent/Robot Deep Reinforcement Learning under
Partial Observability [4.111899441919164]
最先端のマルチエージェント強化学習(MARL)手法は、様々な複雑な問題に対して有望な解決策を提供してきた。
まず,MacDec-POMDPに対する値に基づくRL手法を提案する。
3つの訓練パラダイムの下でマクロアクションに基づくポリシー勾配アルゴリズムを定式化する。
論文 参考訳(メタデータ) (2022-09-20T21:13:51Z) - MALib: A Parallel Framework for Population-based Multi-agent
Reinforcement Learning [61.28547338576706]
人口ベースマルチエージェント強化学習(PB-MARL)は、強化学習(RL)アルゴリズムでネストした一連の手法を指す。
PB-MARLのためのスケーラブルで効率的な計算フレームワークMALibを提案する。
論文 参考訳(メタデータ) (2021-06-05T03:27:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。