Fugu-MT 論文翻訳(概要): Wonder Wins Ways: Curiosity-Driven Exploration through Multi-Agent Contextual Calibration

論文の概要: Wonder Wins Ways: Curiosity-Driven Exploration through Multi-Agent Contextual Calibration

arxiv url: http://arxiv.org/abs/2509.20648v1
Date: Thu, 25 Sep 2025 01:07:08 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-26 20:58:12.644933
Title: Wonder Wins Ways: Curiosity-Driven Exploration through Multi-Agent Contextual Calibration
Title（参考訳）: Wonder Wins Ways:マルチエージェントコンテキストキャリブレーションによる好奇心駆動探索
Authors: Yiyuan Pan, Zhe Liu, Hesheng Wang,
Abstract要約: エージェントがノイズの多いサプライズ信号をフィルタリングし、固有好奇心を推論されたマルチエージェントコンテキストで動的に校正することで、ガイド探索を可能にする、原則化されたフレームワークであるCERMICを紹介する。 CERMICをVMAS, Meltingpot, SMACv2などのベンチマークスイートで評価する。
参考スコア（独自算出の注目度）: 21.410144944756308
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Autonomous exploration in complex multi-agent reinforcement learning (MARL) with sparse rewards critically depends on providing agents with effective intrinsic motivation. While artificial curiosity offers a powerful self-supervised signal, it often confuses environmental stochasticity with meaningful novelty. Moreover, existing curiosity mechanisms exhibit a uniform novelty bias, treating all unexpected observations equally. However, peer behavior novelty, which encode latent task dynamics, are often overlooked, resulting in suboptimal exploration in decentralized, communication-free MARL settings. To this end, inspired by how human children adaptively calibrate their own exploratory behaviors via observing peers, we propose a novel approach to enhance multi-agent exploration. We introduce CERMIC, a principled framework that empowers agents to robustly filter noisy surprise signals and guide exploration by dynamically calibrating their intrinsic curiosity with inferred multi-agent context. Additionally, CERMIC generates theoretically-grounded intrinsic rewards, encouraging agents to explore state transitions with high information gain. We evaluate CERMIC on benchmark suites including VMAS, Meltingpot, and SMACv2. Empirical results demonstrate that exploration with CERMIC significantly outperforms SoTA algorithms in sparse-reward environments.
Abstract（参考訳）: 複雑なマルチエージェント強化学習(MARL)におけるスパース報酬の自律的な探索は、効果的な本質的な動機付けを持つエージェントの提供に大きく依存する。人工好奇心は強力な自己制御シグナルを提供するが、しばしば環境確率と意味のある新奇さを混同する。さらに、既存の好奇心機構は均一な新規性バイアスを示し、すべての予期せぬ観察を等しく扱う。しかし、遅延タスクのダイナミクスを符号化するピア動作の新規性はしばしば見過ごされ、分散化された通信不要なMARL設定において、最適以下の探索をもたらす。そこで本研究では,人間の子どもが観察者を通して探索行動をどのように適応的に調整するかに着想を得て,マルチエージェント探索を強化する新しいアプローチを提案する。 CERMICは、エージェントが雑音の多いサプライズ信号を頑健にフィルタリングし、推論されたマルチエージェントコンテキストで固有の好奇心を動的に調整し、探索をガイドする、原理的なフレームワークである。さらに、CERMICは理論的に地味な報酬を生成し、エージェントは高い情報ゲインを持つ状態遷移を探索することを奨励する。 CERMICをVMAS, Meltingpot, SMACv2などのベンチマークスイートで評価する。実験の結果、CERMICによる探索は、スパース・リワード環境でのSoTAアルゴリズムを著しく上回っていることが示された。

関連論文リスト

Interpretable Learning Dynamics in Unsupervised Reinforcement Learning [0.10832949790701804]
本稿では,教師なし強化学習(URL)エージェントの解釈可能性フレームワークを提案する。 DQN,RND,ICM,PPO,Transformer-RNDの5種類のエージェントを手続き的に生成する環境下で訓練した。
論文参考訳（メタデータ） (2025-05-06T19:57:09Z)
Deep Reinforcement Learning with Hybrid Intrinsic Reward Model [50.53705050673944]
内在的な報酬形成は、ハード探索とスパース・リワードの環境を解決するための一般的なアプローチとして現れている。故意融合戦略を通じてハイブリッドな内因性報酬を作成するためのフレームワークであるHIRE(Hybrid Intrinsic Reward)を紹介する。
論文参考訳（メタデータ） (2025-01-22T04:22:13Z)
Variable-Agnostic Causal Exploration for Reinforcement Learning [56.52768265734155]
強化学習のための新しいフレームワークVACERL(Variable-Agnostic Causal Exploration for Reinforcement Learning)を導入する。本手法は,注目機構を用いて,重要変数に関連する重要な観測行動ステップを自動的に同定する。これらのステップを接続する因果グラフを構築し、エージェントをタスク完了に対する因果的影響の大きい観察-作用ペアへと導く。
論文参考訳（メタデータ） (2024-07-17T09:45:27Z)
Curiosity & Entropy Driven Unsupervised RL in Multiple Environments [0.0]
オリジナル作品に5つの新しい修正を加えて実験する。高次元環境では、好奇心による探索は、エージェントに多様な経験を求め、未知のものを探索するように促すことによって学習を促進する。しかし、探索可能性に制約があり、エージェントに真に知られていないような、低次元でシンプルな環境では、その利点は限られている。
論文参考訳（メタデータ） (2024-01-08T19:25:40Z)
DCIR: Dynamic Consistency Intrinsic Reward for Multi-Agent Reinforcement Learning [84.22561239481901]
本稿では,エージェントの行動が他のエージェントの行動と一致しているかどうかを学習するための新しいアプローチを提案する。マルチエージェント粒子, Google Research Football および StarCraft II Micromanagement を含む複数の環境における DCIR の評価を行った。
論文参考訳（メタデータ） (2023-12-10T06:03:57Z)
Strangeness-driven Exploration in Multi-Agent Reinforcement Learning [0.0]
我々は,任意の集中型トレーニングと分散実行(CTDE)に基づくMARLアルゴリズムに容易に組み込むことのできる,奇異性のある新たな探索手法を提案する。探索ボーナスは奇異性から得られ,提案手法はMARLタスクでよく見られる遷移の影響を受けない。
論文参考訳（メタデータ） (2022-12-27T11:08:49Z)
Curiosity-Driven Multi-Agent Exploration with Mixed Objectives [7.247148291603988]
単エージェント強化学習におけるスパース報酬問題を軽減するために、本質的な報酬がますます利用されてきた。好奇心駆動探索(英: Curiosity-driven exploration)は、エージェントの好奇心モジュールの予測誤差としてこの新規性を定量化する、単純で効率的なアプローチである。しかし, この好奇心を駆使して, スパース報酬協調型マルチエージェント環境における探索をガイドする手法は, 常に改善に繋がらないことを示す。
論文参考訳（メタデータ） (2022-10-29T02:45:38Z)
Rewarding Episodic Visitation Discrepancy for Exploration in Reinforcement Learning [64.8463574294237]
本稿では,効率的かつ定量的な探索手法として,Rewarding Episodic Visitation Discrepancy (REVD)を提案する。 REVDは、R'enyiの発散に基づくエピソード間の訪問不一致を評価することによって、本質的な報酬を提供する。 PyBullet Robotics EnvironmentsとAtariゲームでテストされている。
論文参考訳（メタデータ） (2022-09-19T08:42:46Z)
Episodic Multi-agent Reinforcement Learning with Curiosity-Driven Exploration [40.87053312548429]
EMCと呼ばれる好奇心を駆使した新しい多エージェント強化学習について紹介する。我々は,個別Q値の予測誤差を協調探索の本質的な報奨として使用し,エピソードメモリを用いて探索的な情報的経験を利用して政策訓練を促進する。
論文参考訳（メタデータ） (2021-11-22T07:34:47Z)
Variational Dynamic for Self-Supervised Exploration in Deep Reinforcement Learning [12.76337275628074]
本研究では,条件付き変分推論に基づく変動力学モデルを提案し,多モード性および生成性をモデル化する。環境遷移の負の対数類似度の上界を導出し、その上界を探査の本質的な報酬として利用する。提案手法は,最先端の環境モデルに基づく探索手法よりも優れている。
論文参考訳（メタデータ） (2020-10-17T09:54:51Z)
UneVEn: Universal Value Exploration for Multi-Agent Reinforcement Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。 UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文参考訳（メタデータ） (2020-10-06T19:08:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。