論文の概要: MisoDICE: Multi-Agent Imitation from Unlabeled Mixed-Quality Demonstrations
- arxiv url: http://arxiv.org/abs/2505.18595v1
- Date: Sat, 24 May 2025 08:43:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.530855
- Title: MisoDICE: Multi-Agent Imitation from Unlabeled Mixed-Quality Demonstrations
- Title(参考訳): MisoDICE: ラベル付き混合品質によるマルチエージェントの模倣
- Authors: The Viet Bui, Tien Mai, Hong Thanh Nguyen,
- Abstract要約: 実演が混在する多エージェント環境下でのオフライン模倣学習(IL)について検討した。
提案手法は,軌道ラベリングとマルチエージェント模倣学習の2段階からなる。
我々はこれらのラベルを利用してロバストなポリシーを学習する新しいマルチエージェントILアルゴリズムであるMisoDICEを紹介する。
- 参考スコア(独自算出の注目度): 5.4482836906033585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study offline imitation learning (IL) in cooperative multi-agent settings, where demonstrations have unlabeled mixed quality - containing both expert and suboptimal trajectories. Our proposed solution is structured in two stages: trajectory labeling and multi-agent imitation learning, designed jointly to enable effective learning from heterogeneous, unlabeled data. In the first stage, we combine advances in large language models and preference-based reinforcement learning to construct a progressive labeling pipeline that distinguishes expert-quality trajectories. In the second stage, we introduce MisoDICE, a novel multi-agent IL algorithm that leverages these labels to learn robust policies while addressing the computational complexity of large joint state-action spaces. By extending the popular single-agent DICE framework to multi-agent settings with a new value decomposition and mixing architecture, our method yields a convex policy optimization objective and ensures consistency between global and local policies. We evaluate MisoDICE on multiple standard multi-agent RL benchmarks and demonstrate superior performance, especially when expert data is scarce.
- Abstract(参考訳): 協調型マルチエージェント環境でのオフライン模倣学習(IL)について検討した。
提案手法は, トラジェクティブ・ラベリングとマルチエージェント・模倣学習という2つの段階から構成される。
最初の段階では、大規模言語モデルの進歩と嗜好に基づく強化学習を組み合わせて、専門家の質の高い軌道を区別するプログレッシブなラベリングパイプラインを構築します。
第2段階では,多エージェントILアルゴリズムであるMisoDICEを導入する。このアルゴリズムは,これらのラベルを利用して,大規模連接状態-作用空間の計算複雑性に対処しながら,ロバストなポリシーを学習する。
一般的な単一エージェントDICEフレームワークを新しい値分解・混合アーキテクチャでマルチエージェント設定に拡張することにより、凸ポリシー最適化の目標を導き、グローバルポリシーとローカルポリシーの整合性を確保する。
複数の標準マルチエージェントRLベンチマークでMisoDICEを評価し,特に専門家データが少ない場合,優れた性能を示す。
関連論文リスト
- Multi-Level Aware Preference Learning: Enhancing RLHF for Complex Multi-Instruction Tasks [81.44256822500257]
RLHFは、人工知能システムと人間の好みを結びつける主要なアプローチとして登場した。
RLHFは、複雑なマルチインストラクションタスクに直面すると、不十分なコンプライアンス機能を示す。
本稿では,マルチインストラクション能力を向上させる新しいMAPL(Multi-level Aware Preference Learning)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-19T08:33:11Z) - Offline Multi-agent Reinforcement Learning via Score Decomposition [51.23590397383217]
オフラインマルチエージェント強化学習(MARL)は、分散シフトと関節行動空間の高次元性に起因する重要な課題に直面している。
多様なマルチエージェント協調パターンをモデル化するための新しい2段階フレームワークを提案する。
本手法は,協調型マルチエージェントシステムにおけるオフライン協調と平衡選択に関する新たな知見を提供する。
論文 参考訳(メタデータ) (2025-05-09T11:42:31Z) - Multi-Agent Inverse Q-Learning from Demonstrations [3.4136908117644698]
Multi-Agent Marginal Q-Learning from Demonstrations (MAMQL)は、マルチエージェントIRLのための新しいサンプル効率フレームワークである。
MAMQLは,従来のマルチエージェント手法よりも平均報酬率,サンプル効率,報酬回復率を2~5倍に向上させることを示した。
論文 参考訳(メタデータ) (2025-03-06T18:22:29Z) - MultiAgentBench: Evaluating the Collaboration and Competition of LLM agents [59.825725526176655]
大規模言語モデル(LLM)は、自律的なエージェントとして顕著な能力を示している。
既存のベンチマークでは、単一エージェントタスクにフォーカスするか、狭いドメインに限定されており、マルチエージェントのコーディネーションと競合のダイナミクスを捉えていない。
多様な対話シナリオにまたがってLLMベースのマルチエージェントシステムを評価するためのベンチマークであるMultiAgentBenchを紹介する。
論文 参考訳(メタデータ) (2025-03-03T05:18:50Z) - POGEMA: A Benchmark Platform for Cooperative Multi-Agent Pathfinding [76.67608003501479]
POGEMAは、学習のための高速環境、問題インスタンスジェネレータ、可視化ツールキットを含む、総合的なツールセットである。
また、プライマリ評価指標に基づいて計算されるドメイン関連メトリクスの範囲を規定する評価プロトコルを導入し、定義する。
この比較の結果は、様々な最先端のMARL、検索ベース、ハイブリッド手法を含む。
論文 参考訳(メタデータ) (2024-07-20T16:37:21Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。