論文の概要: Dynamic Sight Range Selection in Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.12811v1
- Date: Mon, 19 May 2025 07:40:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.471362
- Title: Dynamic Sight Range Selection in Multi-Agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習における動的視線範囲選択
- Authors: Wei-Chen Liao, Ti-Rong Wu, I-Chen Wu,
- Abstract要約: マルチエージェント強化学習(MARL)は、視線ジレンマによってしばしば挑戦される。
本稿では,DSR(Dynamic Sight Range Selection)と呼ばれる新しい手法を提案する。
- 参考スコア(独自算出の注目度): 15.738966032676027
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent reinforcement Learning (MARL) is often challenged by the sight range dilemma, where agents either receive insufficient or excessive information from their environment. In this paper, we propose a novel method, called Dynamic Sight Range Selection (DSR), to address this issue. DSR utilizes an Upper Confidence Bound (UCB) algorithm and dynamically adjusts the sight range during training. Experiment results show several advantages of using DSR. First, we demonstrate using DSR achieves better performance in three common MARL environments, including Level-Based Foraging (LBF), Multi-Robot Warehouse (RWARE), and StarCraft Multi-Agent Challenge (SMAC). Second, our results show that DSR consistently improves performance across multiple MARL algorithms, including QMIX and MAPPO. Third, DSR offers suitable sight ranges for different training steps, thereby accelerating the training process. Finally, DSR provides additional interpretability by indicating the optimal sight range used during training. Unlike existing methods that rely on global information or communication mechanisms, our approach operates solely based on the individual sight ranges of agents. This approach offers a practical and efficient solution to the sight range dilemma, making it broadly applicable to real-world complex environments.
- Abstract(参考訳): マルチエージェント強化学習(MARL)は、エージェントが環境から不十分または過剰な情報を受信する、視線範囲ジレンマによってしばしば挑戦される。
本稿では,DSR(Dynamic Sight Range Selection)と呼ばれる新しい手法を提案し,この問題に対処する。
DSRは、アッパー信頼境界(UCB)アルゴリズムを使用し、トレーニング中に視界を動的に調整する。
実験結果からDSRの利点がいくつか示された。
まず,DSRを用いることで,LBF(Level-Based Foraging),RWARE(Multi-Robot Warehouse),SMAC(StarCraft Multi-Agent Challenge)の3つの一般的なMARL環境の性能が向上することを示す。
第2に、DSRは、QMIXやMAPPOを含む複数のMARLアルゴリズムの性能を一貫して改善することを示す。
第3に、DSRは異なるトレーニングステップに適した視界範囲を提供し、それによってトレーニングプロセスが加速される。
最後に、DSRはトレーニング中に使用する最適な視界範囲を示すことで、さらなる解釈性を提供する。
グローバルな情報やコミュニケーション機構に依存している既存の手法とは異なり、我々の手法はエージェントの個々の視界範囲に基づいてのみ動作する。
このアプローチは視界ジレンマに対して実用的で効率的な解決策を提供し、現実世界の複雑な環境にも広く適用できる。
関連論文リスト
- RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning [125.65034908728828]
対話型エージェントとしての大規模言語モデル(LLM)のトレーニングには,ユニークな課題がある。
強化学習は静的タスクの進行を可能にする一方で、マルチターンエージェントRLトレーニングは未探索のままである。
本稿では、軌道レベルのエージェントRLのための一般的なフレームワークであるStarPOを提案し、LLMエージェントのトレーニングと評価のためのモジュールシステムであるRAGENを紹介する。
論文 参考訳(メタデータ) (2025-04-24T17:57:08Z) - MAT: Multi-Range Attention Transformer for Efficient Image Super-Resolution [14.265237560766268]
画像超解像(SR)タスクのためのマルチランジアテンショントランス (MAT) を提案する。
MATはマルチレンジ・アテンション(MA)とスパース・マルチレンジ・アテンション(SMA)の両方を促進する。
また、MSConvStarモジュールを導入し、マルチレンジ表現学習におけるモデルの能力を高める。
論文 参考訳(メタデータ) (2024-11-26T08:30:31Z) - Rewarding What Matters: Step-by-Step Reinforcement Learning for Task-Oriented Dialogue [17.47550065558479]
強化学習(RL)はタスク指向対話(TOD)システムを強化するための強力なアプローチである。
既存のRL手法は主に生成タスクに焦点を合わせ、理解のために対話状態追跡(DST)を無視する傾向にある。
トークン生成全体でステップバイステップの報酬を導入し、RLを理解タスクと生成タスクの両方に拡張する。
論文 参考訳(メタデータ) (2024-06-20T16:15:40Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Activation to Saliency: Forming High-Quality Labels for Unsupervised
Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。
トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。
本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文 参考訳(メタデータ) (2021-12-07T11:54:06Z) - Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person
Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。
既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。
そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文 参考訳(メタデータ) (2020-07-18T03:08:13Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。