論文の概要: FlickerFusion: Intra-trajectory Domain Generalizing Multi-Agent RL
- arxiv url: http://arxiv.org/abs/2410.15876v3
- Date: Tue, 03 Dec 2024 05:59:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 12:22:06.240945
- Title: FlickerFusion: Intra-trajectory Domain Generalizing Multi-Agent RL
- Title(参考訳): FlickerFusion:マルチエージェントRLを一般化した軌道内ドメイン
- Authors: Woosung Koh, Wonbeen Oh, Siyeol Kim, Suhin Shin, Hyeongjin Kim, Jaein Jang, Junghyun Lee, Se-Young Yun,
- Abstract要約: 既存のMARLアプローチは、トレーニングと推論の間に実体の数が一定であるという制限的な仮定に依存することが多い。
本稿では、ゼロショット・アウト・オブ・ドメイン(OOD)一般化の下での軌道内動的実体合成の課題に取り組む。
本稿では,MARLのバックボーン法に普遍的に適用可能な拡張手法として機能する新しいOOD一般化手法であるFlickerFusionを提案する。
- 参考スコア(独自算出の注目度): 19.236153474365747
- License:
- Abstract: Multi-agent reinforcement learning has demonstrated significant potential in addressing complex cooperative tasks across various real-world applications. However, existing MARL approaches often rely on the restrictive assumption that the number of entities (e.g., agents, obstacles) remains constant between training and inference. This overlooks scenarios where entities are dynamically removed or added during the inference trajectory -- a common occurrence in real-world environments like search and rescue missions and dynamic combat situations. In this paper, we tackle the challenge of intra-trajectory dynamic entity composition under zero-shot out-of-domain (OOD) generalization, where such dynamic changes cannot be anticipated beforehand. Our empirical studies reveal that existing MARL methods suffer significant performance degradation and increased uncertainty in these scenarios. In response, we propose FlickerFusion, a novel OOD generalization method that acts as a universally applicable augmentation technique for MARL backbone methods. FlickerFusion stochastically drops out parts of the observation space, emulating being in-domain when inferenced OOD. The results show that FlickerFusion not only achieves superior inference rewards but also uniquely reduces uncertainty vis-\`a-vis the backbone, compared to existing methods. Benchmarks, implementations, and model weights are organized and open-sourced at flickerfusion305.github.io, accompanied by ample demo video renderings.
- Abstract(参考訳): マルチエージェント強化学習は、様々な実世界のアプリケーションにまたがる複雑な協調作業に対処する大きな可能性を示している。
しかし、既存のMARLアプローチは、トレーニングと推論の間に実体の数(エージェント、障害物など)が一定であるという制限的な仮定に依存することが多い。
これは、エンティティが推論軌道中に動的に削除または追加されるシナリオを見落としている。
本稿では、ゼロショット・アウト・オブ・ドメイン(OOD)一般化の下での軌道内動的実体合成の課題に取り組み、そのような動的変化を事前に予測できない。
実験により,既存のMARL法は,これらのシナリオにおいて顕著な性能劣化と不確実性の増大に悩まされていることが明らかとなった。
そこで本研究では,新たなOOD一般化手法であるFlickerFusionを提案する。
FlickerFusionは、OODを推論する際にドメイン内にあることをエミュレートして、観測空間の一部を確率的に取り出す。
その結果、FlickerFusionは優れた推論報酬を達成するだけでなく、既存の方法と比較して、バックボーンの不確実性 vis-\`a-vis を一意的に減少させることがわかった。
ベンチマーク、実装、モデルウェイトは、flickerfusion305.github.ioで編成され、オープンソース化されている。
関連論文リスト
- Multi-Agent Path Finding in Continuous Spaces with Projected Diffusion Models [57.45019514036948]
MAPF(Multi-Agent Path Finding)は、ロボット工学における基本的な問題である。
連続空間におけるMAPFの拡散モデルと制約付き最適化を統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-12-23T21:27:19Z) - Generalize or Detect? Towards Robust Semantic Segmentation Under Multiple Distribution Shifts [56.57141696245328]
斬新なクラスとドメインの両方が存在するようなオープンワールドシナリオでは、理想的なセグメンテーションモデルは安全のために異常なクラスを検出する必要がある。
既存の方法はドメインレベルとセマンティックレベルの分散シフトを区別するのに苦労することが多い。
論文 参考訳(メタデータ) (2024-11-06T11:03:02Z) - Beyond Local Views: Global State Inference with Diffusion Models for Cooperative Multi-Agent Reinforcement Learning [36.25611963252774]
拡散モデルによる状態推論(SIDIFF)は、画像の露光にインスパイアされている。
SIDIFFは、ローカルな観測のみに基づいて、元のグローバルステートを再構築する。
現在のマルチエージェント強化学習アルゴリズムに無理に組み込むことができる。
論文 参考訳(メタデータ) (2024-08-18T14:49:53Z) - Imagine, Initialize, and Explore: An Effective Exploration Method in
Multi-Agent Reinforcement Learning [27.81925751697255]
複雑なシナリオにおける効率的なマルチエージェント探索法を提案する。
我々は、状態、観察、プロンプト、行動、報酬が自己回帰的に予測されるシーケンスモデリング問題として想像を定式化する。
臨界状態のエージェントを初期化することにより、IIEは潜在的に重要な未探索領域を発見する可能性を大幅に高める。
論文 参考訳(メタデータ) (2024-02-28T01:45:01Z) - Endogenous Macrodynamics in Algorithmic Recourse [52.87956177581998]
対実説明(CE)とアルゴリズム・リコース(AR)に関する既存の研究は、静的環境における個人に主に焦点を当ててきた。
既存の方法論の多くは、一般化されたフレームワークによってまとめて記述できることを示す。
次に、既存のフレームワークは、グループレベルでの言論の内在的ダイナミクスを研究する際にのみ明らかとなるような、隠された対外的関係のコストを考慮に入れていないと論じる。
論文 参考訳(メタデータ) (2023-08-16T07:36:58Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - DALG: Deep Attentive Local and Global Modeling for Image Retrieval [26.773211032906854]
本稿では,Transformerの成功に動機づけられた頑健な表現学習のための,完全な注意に基づくフレームワークを提案する。
グローバルな特徴抽出にTransformerを適用することに加えて、ウィンドウベースのマルチヘッドアテンションと空間アテンションからなるローカルブランチを考案する。
DALG(Deep Attentive Local and Global Modeling framework)では、大規模な実験結果により、効率が大幅に改善できることが示されている。
論文 参考訳(メタデータ) (2022-07-01T09:32:15Z) - Multi-Agent Reinforcement Learning via Adaptive Kalman Temporal
Difference and Successor Representation [32.80370188601152]
本稿では,マルチエージェント適応カルマン時間差分(MAK-TD)フレームワークとその継承表現に基づく変種(MAK-SR)を提案する。
提案するMAK-TD/SRフレームワークは,高次元マルチエージェント環境に関連付けられたアクション空間の連続的な性質を考察する。
論文 参考訳(メタデータ) (2021-12-30T18:21:53Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - Invariant Causal Prediction for Block MDPs [106.63346115341862]
環境全体にわたる一般化は、実世界の課題への強化学習アルゴリズムの適用の成功に不可欠である。
本稿では,多環境環境における新しい観測を一般化するモデル不適合状態抽象化(MISA)を学習するための不変予測法を提案する。
論文 参考訳(メタデータ) (2020-03-12T21:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。