Fugu-MT 論文翻訳(概要): FlickerFusion: Intra-trajectory Domain Generalizing Multi-Agent RL

論文の概要: FlickerFusion: Intra-trajectory Domain Generalizing Multi-Agent RL

arxiv url: http://arxiv.org/abs/2410.15876v1
Date: Mon, 21 Oct 2024 10:57:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:38.390128
Title: FlickerFusion: Intra-trajectory Domain Generalizing Multi-Agent RL
Title（参考訳）: FlickerFusion:マルチエージェントRLを一般化した軌道内ドメイン
Authors: Woosung Koh, Wonbeen Oh, Siyeol Kim, Suhin Shin, Hyeongjin Kim, Jaein Jang, Junghyun Lee, Se-Young Yun,
Abstract要約: 既存のMARLアプローチは、トレーニングと推論の間に実体の数が一定であるという制限的な仮定に依存することが多い。本稿では、ゼロショット・アウト・オブ・ドメイン(OOD)一般化の下での軌道内動的実体合成の課題に取り組む。本稿では,MARLのバックボーン法に普遍的に適用可能な拡張手法として機能する新しいOOD一般化手法であるFlickerFusionを提案する。
参考スコア（独自算出の注目度）: 19.236153474365747
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Multi-agent reinforcement learning has demonstrated significant potential in addressing complex cooperative tasks across various real-world applications. However, existing MARL approaches often rely on the restrictive assumption that the number of entities (e.g., agents, obstacles) remains constant between training and inference. This overlooks scenarios where entities are dynamically removed or added during the inference trajectory -- a common occurrence in real-world environments like search and rescue missions and dynamic combat situations. In this paper, we tackle the challenge of intra-trajectory dynamic entity composition under zero-shot out-of-domain (OOD) generalization, where such dynamic changes cannot be anticipated beforehand. Our empirical studies reveal that existing MARL methods suffer significant performance degradation and increased uncertainty in these scenarios. In response, we propose FlickerFusion, a novel OOD generalization method that acts as a universally applicable augmentation technique for MARL backbone methods. Our results show that FlickerFusion not only achieves superior inference rewards but also uniquely reduces uncertainty vis-\`a-vis the backbone, compared to existing methods. For standardized evaluation, we introduce MPEv2, an enhanced version of Multi Particle Environments (MPE), consisting of 12 benchmarks. Benchmarks, implementations, and trained models are organized and open-sourced at flickerfusion305.github.io, accompanied by ample demo video renderings.
Abstract（参考訳）: マルチエージェント強化学習は、様々な実世界のアプリケーションにまたがる複雑な協調作業に対処する大きな可能性を示している。しかし、既存のMARLアプローチは、トレーニングと推論の間に実体の数(エージェント、障害物など)が一定であるという制限的な仮定に依存することが多い。これは、エンティティが推論軌道中に動的に削除または追加されるシナリオを見落としている。本稿では、ゼロショット・アウト・オブ・ドメイン(OOD)一般化の下での軌道内動的実体合成の課題に取り組み、そのような動的変化を事前に予測できない。実験により,既存のMARL法は,これらのシナリオにおいて顕著な性能劣化と不確実性の増大に悩まされていることが明らかとなった。そこで本研究では,新たなOOD一般化手法であるFlickerFusionを提案する。以上の結果から,FlickerFusionは優れた推論報酬を達成できるだけでなく,既存の手法に比べてバックボーンの不確実性を低下させることがわかった。標準化された評価のために、12のベンチマークからなるMPE(Multi Particle Environments)の強化版であるMPEv2を紹介する。ベンチマーク、実装、トレーニングされたモデルは、flickerfusion305.github.ioで編成され、オープンソース化されている。

関連論文リスト

Unified Multimodal Diffusion Forcing for Forceful Manipulation [13.51688687815195]
マルチモーダルロボット軌道から学習するための統合フレームワークであるマルチモーダル拡散強制法を提案する。固定分布をモデル化する代わりに、MDFはランダムな部分マスクを適用し、軌道の再構成のために拡散モデルを訓練する。我々は,実環境とシミュレーション環境の接触に富む,力強い操作作業におけるMDFの評価を行った。
論文参考訳（メタデータ） (2025-11-06T21:08:35Z)
Contamination Detection for VLMs using Multi-Modal Semantic Perturbation [73.76465227729818]
オープンソースのVision-Language Models (VLM)は、ベンチマークタスクで最先端のパフォーマンスを達成した。プレトレーニングコーパスは,テストセットリークによるパフォーマンスの低下という,実践者とユーザ双方にとって重要な懸念を提起する。既存の検出手法が不整合性を示すか,不整合性を示すかを示す。マルチモーダルなセマンティック摂動に基づく,新しい簡易かつ効果的な検出法を提案する。
論文参考訳（メタデータ） (2025-11-05T18:59:52Z)
Explaining multimodal LLMs via intra-modal token interactions [55.27436637894534]
MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにおいて顕著な成功を収めているが、その内部決定機構は十分に理解されていない。モーダル内相互作用を利用した解釈可能性の向上を提案する。
論文参考訳（メタデータ） (2025-09-26T14:39:13Z)
Revisiting Multi-Agent World Modeling from a Diffusion-Inspired Perspective [45.44355861030715]
拡散モデルを用いたマルチエージェント強化学習(MARL)のためのフレキシブルで堅牢な世界モデルを開発する。本手法はDiffusion-Inspired Multi-Agent World Model (DIMA) を用いて,複数のマルチエージェント制御ベンチマークにおける最先端性能を実現する。
論文参考訳（メタデータ） (2025-05-27T09:11:38Z)
Collaborative Value Function Estimation Under Model Mismatch: A Federated Temporal Difference Analysis [55.13545823385091]
フェデレーション強化学習(FedRL)は、エージェント間のデータ交換を防止し、データのプライバシを維持しながら協調学習を可能にする。現実世界のアプリケーションでは、各エージェントは若干異なる遷移ダイナミクスを経験し、固有のモデルミスマッチを引き起こす。我々は、中程度のレベルの情報共有でも、環境固有のエラーを著しく軽減できることを示した。
論文参考訳（メタデータ） (2025-03-21T18:06:28Z)
Let Synthetic Data Shine: Domain Reassembly and Soft-Fusion for Single Domain Generalization [68.41367635546183]
単一ドメインの一般化は、単一のソースからのデータを使用して、さまざまなシナリオで一貫したパフォーマンスでモデルをトレーニングすることを目的としている。モデル一般化を改善するために合成データを活用した学習フレームワークDRSFを提案する。
論文参考訳（メタデータ） (2025-03-17T18:08:03Z)
Multi-Agent Path Finding in Continuous Spaces with Projected Diffusion Models [57.45019514036948]
MAPF(Multi-Agent Path Finding)は、ロボット工学における基本的な問題である。連続空間におけるMAPFの拡散モデルと制約付き最適化を統合する新しい手法を提案する。
論文参考訳（メタデータ） (2024-12-23T21:27:19Z)
Generalize or Detect? Towards Robust Semantic Segmentation Under Multiple Distribution Shifts [56.57141696245328]
斬新なクラスとドメインの両方が存在するようなオープンワールドシナリオでは、理想的なセグメンテーションモデルは安全のために異常なクラスを検出する必要がある。既存の方法はドメインレベルとセマンティックレベルの分散シフトを区別するのに苦労することが多い。
論文参考訳（メタデータ） (2024-11-06T11:03:02Z)
Beyond Local Views: Global State Inference with Diffusion Models for Cooperative Multi-Agent Reinforcement Learning [36.25611963252774]
拡散モデルによる状態推論(SIDIFF)は、画像の露光にインスパイアされている。 SIDIFFは、ローカルな観測のみに基づいて、元のグローバルステートを再構築する。現在のマルチエージェント強化学習アルゴリズムに無理に組み込むことができる。
論文参考訳（メタデータ） (2024-08-18T14:49:53Z)
Diffusion Models for Offline Multi-agent Reinforcement Learning with Safety Constraints [0.0]
マルチエージェント強化学習パラダイムに拡散モデルを統合する革新的なフレームワークを導入する。このアプローチは、協調動作をモデル化しながらリスク軽減を通じて、複数のエージェントが取るべき行動の安全性を特に向上させる。
論文参考訳（メタデータ） (2024-06-30T16:05:31Z)
MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。 SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文参考訳（メタデータ） (2024-04-13T13:39:26Z)
Imagine, Initialize, and Explore: An Effective Exploration Method in Multi-Agent Reinforcement Learning [27.81925751697255]
複雑なシナリオにおける効率的なマルチエージェント探索法を提案する。我々は、状態、観察、プロンプト、行動、報酬が自己回帰的に予測されるシーケンスモデリング問題として想像を定式化する。臨界状態のエージェントを初期化することにより、IIEは潜在的に重要な未探索領域を発見する可能性を大幅に高める。
論文参考訳（メタデータ） (2024-02-28T01:45:01Z)
Endogenous Macrodynamics in Algorithmic Recourse [52.87956177581998]
対実説明(CE)とアルゴリズム・リコース(AR)に関する既存の研究は、静的環境における個人に主に焦点を当ててきた。既存の方法論の多くは、一般化されたフレームワークによってまとめて記述できることを示す。次に、既存のフレームワークは、グループレベルでの言論の内在的ダイナミクスを研究する際にのみ明らかとなるような、隠された対外的関係のコストを考慮に入れていないと論じる。
論文参考訳（メタデータ） (2023-08-16T07:36:58Z)
Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。 HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文参考訳（メタデータ） (2023-05-23T01:24:15Z)
DALG: Deep Attentive Local and Global Modeling for Image Retrieval [26.773211032906854]
本稿では,Transformerの成功に動機づけられた頑健な表現学習のための,完全な注意に基づくフレームワークを提案する。グローバルな特徴抽出にTransformerを適用することに加えて、ウィンドウベースのマルチヘッドアテンションと空間アテンションからなるローカルブランチを考案する。 DALG(Deep Attentive Local and Global Modeling framework)では、大規模な実験結果により、効率が大幅に改善できることが示されている。
論文参考訳（メタデータ） (2022-07-01T09:32:15Z)
Multi-Agent Reinforcement Learning via Adaptive Kalman Temporal Difference and Successor Representation [32.80370188601152]
本稿では,マルチエージェント適応カルマン時間差分(MAK-TD)フレームワークとその継承表現に基づく変種(MAK-SR)を提案する。提案するMAK-TD/SRフレームワークは,高次元マルチエージェント環境に関連付けられたアクション空間の連続的な性質を考察する。
論文参考訳（メタデータ） (2021-12-30T18:21:53Z)
Locality Matters: A Scalable Value Decomposition Approach for Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文参考訳（メタデータ） (2021-09-22T10:08:15Z)
Invariant Causal Prediction for Block MDPs [106.63346115341862]
環境全体にわたる一般化は、実世界の課題への強化学習アルゴリズムの適用の成功に不可欠である。本稿では,多環境環境における新しい観測を一般化するモデル不適合状態抽象化(MISA)を学習するための不変予測法を提案する。
論文参考訳（メタデータ） (2020-03-12T21:03:01Z)
State-only Imitation with Transition Dynamics Mismatch [16.934888672659824]
イミテーションラーニング(Imitation Learning, IL)は、専門家の行動を活用することで、複雑な目標を達成するための訓練エージェントにとって一般的なパラダイムである。本稿では,新しい状態のみのILアルゴリズムを提案する。提案アルゴリズムは,専門家と模倣MDPの間に遷移力学ミスマッチが存在する場合,特に有効であることを示す。
論文参考訳（メタデータ） (2020-02-27T02:27:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。