Fugu-MT 論文翻訳(概要): Counterfactual Conditional Likelihood Rewards for Multiagent Exploration

論文の概要: Counterfactual Conditional Likelihood Rewards for Multiagent Exploration

arxiv url: http://arxiv.org/abs/2602.11740v1
Date: Thu, 12 Feb 2026 09:08:49 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-23 08:17:41.389613
Title: Counterfactual Conditional Likelihood Rewards for Multiagent Exploration
Title（参考訳）: マルチエージェント探索のための実測条件付きリワード
Authors: Ayhan Alp Aydeniz, Robert Loftin, Kagan Tumer,
Abstract要約: 我々は,各エージェントのチーム探索へのユニークな貢献を分離することで,各エージェントの探索を評価できる対実条件的報酬を導入する。連続的マルチエージェント領域の実験では、CCL報酬はスパースチーム報酬を持つ領域の学習を加速し、ほとんどの関節アクションはゼロ報酬をもたらす。
参考スコア（独自算出の注目度）: 1.0705399532413618
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Efficient exploration is critical for multiagent systems to discover coordinated strategies, particularly in open-ended domains such as search and rescue or planetary surveying. However, when exploration is encouraged only at the individual agent level, it often leads to redundancy, as agents act without awareness of how their teammates are exploring. In this work, we introduce Counterfactual Conditional Likelihood (CCL) rewards, which score each agent's exploration by isolating its unique contribution to team exploration. Unlike prior methods that reward agents solely for the novelty of their individual observations, CCL emphasizes observations that are informative with respect to the joint exploration of the team. Experiments in continuous multiagent domains show that CCL rewards accelerate learning for domains with sparse team rewards, where most joint actions yield zero rewards, and are particularly effective in tasks that require tight coordination among agents.
Abstract（参考訳）: 効率的な探索はマルチエージェントシステムにとって、特に探索・救助・惑星探査のようなオープンエンド領域において、協調した戦略を発見するのに不可欠である。しかしながら、個々のエージェントレベルでのみ探索が奨励される場合、エージェントがチームメイトがどのように探索しているかを意識せずに行動するため、冗長性につながることが多い。本研究では,各エージェントのチーム探索に対するユニークな貢献を分離することで,各エージェントの探索を評価できるCCL報酬を紹介する。個々の観察の新規性にのみ報いる従来の方法とは異なり、CCLはチームの共同探索に関して有益な観察を強調している。連続的マルチエージェント領域の実験では、CCL報酬は、ほとんどの共同行動がゼロ報酬をもたらす、疎いチーム報酬を持つ領域の学習を加速し、エージェント間の密接な調整を必要とするタスクにおいて特に効果的であることが示されている。

関連論文リスト

Individual Contributions as Intrinsic Exploration Scaffolds for Multi-agent Reinforcement Learning [9.448662880144845]
固有探査スカッフルド(ICES)としての個人貢献 ICESは、グローバルな視点から各エージェントの貢献を評価することによって、探索を動機付ける新しいアプローチである。 Google Research Football (GRF) や StarCraft Multi-agent Challenge (SMAC) など,まばらな報酬を伴う協調型ベンチマークタスクの実験
論文参考訳（メタデータ） (2024-05-28T12:18:19Z)
Settling Decentralized Multi-Agent Coordinated Exploration by Novelty Sharing [34.299478481229265]
単純で効果的なマルチエージェント協調探索法である MACE を提案する。エージェントはローカルノベルティのみを通信することで、他のエージェントのローカルノベルティを考慮し、グローバルノベルティを近似することができる。 MACEはスパース報酬を伴う3つのマルチエージェント環境において優れた性能を示す。
論文参考訳（メタデータ） (2024-02-03T09:35:25Z)
Curiosity-Driven Multi-Agent Exploration with Mixed Objectives [7.247148291603988]
単エージェント強化学習におけるスパース報酬問題を軽減するために、本質的な報酬がますます利用されてきた。好奇心駆動探索(英: Curiosity-driven exploration)は、エージェントの好奇心モジュールの予測誤差としてこの新規性を定量化する、単純で効率的なアプローチである。しかし, この好奇心を駆使して, スパース報酬協調型マルチエージェント環境における探索をガイドする手法は, 常に改善に繋がらないことを示す。
論文参考訳（メタデータ） (2022-10-29T02:45:38Z)
Multi-agent Deep Covering Skill Discovery [50.812414209206054]
本稿では,複数エージェントの結合状態空間の予測被覆時間を最小化し,マルチエージェントオプションを構築するマルチエージェントDeep Covering Option Discoveryを提案する。また、MARLプロセスにマルチエージェントオプションを採用するための新しいフレームワークを提案する。提案アルゴリズムは,アテンション機構とエージェントの相互作用を効果的に把握し,マルチエージェントオプションの同定に成功した。
論文参考訳（メタデータ） (2022-10-07T00:40:59Z)
Episodic Multi-agent Reinforcement Learning with Curiosity-Driven Exploration [40.87053312548429]
EMCと呼ばれる好奇心を駆使した新しい多エージェント強化学習について紹介する。我々は,個別Q値の予測誤差を協調探索の本質的な報奨として使用し,エピソードメモリを用いて探索的な情報的経験を利用して政策訓練を促進する。
論文参考訳（メタデータ） (2021-11-22T07:34:47Z)
Cooperative Exploration for Multi-Agent Deep Reinforcement Learning [127.4746863307944]
深層強化学習のための協調型マルチエージェント探索(CMAE)を提案する。ゴールは正規化エントロピーに基づく手法により、複数の射影状態空間から選択される。 CMAEが様々なタスクのベースラインを一貫して上回っていることを実証する。
論文参考訳（メタデータ） (2021-07-23T20:06:32Z)
Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文参考訳（メタデータ） (2021-07-12T17:58:40Z)
UneVEn: Universal Value Exploration for Multi-Agent Reinforcement Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。 UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文参考訳（メタデータ） (2020-10-06T19:08:47Z)
Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文参考訳（メタデータ） (2020-06-10T20:12:38Z)
Scalable Multi-Agent Inverse Reinforcement Learning via Actor-Attention-Critic [54.2180984002807]
マルチエージェント逆逆強化学習 (MA-AIRL) は, 単エージェントAIRLをマルチエージェント問題に適用する最近の手法である。本稿では,従来の手法よりもサンプル効率が高く,スケーラブルなマルチエージェント逆RLアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-02-24T20:30:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。