論文の概要: KEA: Keeping Exploration Alive by Proactively Coordinating Exploration Strategies
- arxiv url: http://arxiv.org/abs/2503.18234v2
- Date: Sat, 07 Jun 2025 17:23:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 01:40:32.544112
- Title: KEA: Keeping Exploration Alive by Proactively Coordinating Exploration Strategies
- Title(参考訳): KEA:探索戦略を積極的に調整することで探索を継続する
- Authors: Shih-Min Yang, Martin Magnusson, Johannes A. Stork, Todor Stoyanov,
- Abstract要約: SAC(Soft Actor-Critic)は、連続的な制御タスクにおいて顕著な成功を収めたが、スパース報酬設定に苦慮している。
本稿では,新しいSACを標準のSACエージェントと統合し,スイッチング機構を介して積極的に協調するKEAを提案する。
最先端のノベルティに基づく探索ベースラインと比較すると,KEAはスパース報酬設定の学習効率と堅牢性を大幅に向上することが示された。
- 参考スコア(独自算出の注目度): 8.7221770019454
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Soft Actor-Critic (SAC) has achieved notable success in continuous control tasks but struggles in sparse reward settings, where infrequent rewards make efficient exploration challenging. While novelty-based exploration methods address this issue by encouraging the agent to explore novel states, they are not trivial to apply to SAC. In particular, managing the interaction between novelty-based exploration and SAC's stochastic policy can lead to inefficient exploration and redundant sample collection. In this paper, we propose KEA (Keeping Exploration Alive) which tackles the inefficiencies in balancing exploration strategies when combining SAC with novelty-based exploration. KEA integrates a novelty-augmented SAC with a standard SAC agent, proactively coordinated via a switching mechanism. This coordination allows the agent to maintain stochasticity in high-novelty regions, enhancing exploration efficiency and reducing repeated sample collection. We first analyze this potential issue in a 2D navigation task, and then evaluate KEA on the DeepSea hard-exploration benchmark as well as sparse reward control tasks from the DeepMind Control Suite. Compared to state-of-the-art novelty-based exploration baselines, our experiments show that KEA significantly improves learning efficiency and robustness in sparse reward setups.
- Abstract(参考訳): SAC(Soft Actor-Critic)は、継続的な制御タスクにおいて顕著な成功を収めてきたが、少ない報酬設定で苦労している。
新規性に基づく探索手法は、エージェントに新しい状態を探索するよう促すことによってこの問題に対処するが、これらはSACに適用するのは容易ではない。
特に、新規性に基づく探索とSACの確率的ポリシーの相互作用を管理することは、非効率な探索と冗長なサンプル収集につながる可能性がある。
本稿では, SAC と新規探索を併用する際の探索戦略のバランスをとる上での非効率性に対処する KEA (Keeping Exploration Alive) を提案する。
KEAは、スイッチング機構を介して積極的に調整された標準SACエージェントと新規に増強されたSACを統合する。
この調整により、高ノベルティ領域における確率性を維持し、探索効率を高め、繰り返しサンプル収集を減らすことができる。
まず、この潜在的な問題を2次元ナビゲーションタスクで分析し、その後DeepSeaのハード探索ベンチマークでKEAを評価し、DeepMind Control Suiteのスパース報酬制御タスクを評価します。
最先端のノベルティに基づく探索ベースラインと比較すると,KEAはスパース報酬設定の学習効率と堅牢性を大幅に向上することが示された。
関連論文リスト
- Beyond the Destination: A Novel Benchmark for Exploration-Aware Embodied Question Answering [87.76784654371312]
Embodied Question Answeringでは、エージェントが動的に3D環境を探索し、視覚情報を積極的に収集し、質問に答えるために多段階の推論を行う必要がある。
既存のデータセットはしばしばバイアスや事前の知識を導入し、非身体的推論につながる。
探索能力と推論能力の両方を評価するために特別に設計された最大のデータセットを構築します。
論文 参考訳(メタデータ) (2025-03-14T06:29:47Z) - Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
RLE(Random Latent Exploration)は、強化学習における単純かつ効果的な探索戦略である。
RLEは、エージェントの行動を混乱させるノイズベースの手法と、新しい行動を試みるエージェントに報酬を与えるボーナスベースの探索を平均的に上回る。
RLEはノイズベースの手法と同じくらい単純であり、複雑なボーナス計算は避けるが、ボーナスベースの手法の深い探索の利点を保っている。
論文 参考訳(メタデータ) (2024-07-18T17:55:22Z) - Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
LATent TIme-Correlated Exploration (Lattice)を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:40:43Z) - Self-Motivated Multi-Agent Exploration [38.55811936029999]
協調型マルチエージェント強化学習(CMARL)では,エージェントが自己探索とチームコラボレーションのバランスをとることが重要である。
近年の研究は主にエージェントの協調探索に焦点が当てられ、州空間の指数的に成長した探索をもたらした。
我々は,自己探索とチーム協力のトレードオフを適応的に見つけることで,チームのタスクの成功を目指す,自己運動型マルチエージェント探索(SMMAE)を提案する。
論文 参考訳(メタデータ) (2023-01-05T14:42:39Z) - Strangeness-driven Exploration in Multi-Agent Reinforcement Learning [0.0]
我々は,任意の集中型トレーニングと分散実行(CTDE)に基づくMARLアルゴリズムに容易に組み込むことのできる,奇異性のある新たな探索手法を提案する。
探索ボーナスは奇異性から得られ,提案手法はMARLタスクでよく見られる遷移の影響を受けない。
論文 参考訳(メタデータ) (2022-12-27T11:08:49Z) - SEREN: Knowing When to Explore and When to Exploit [14.188362393915432]
本稿では,SEREN(Sive Reinforcement Exploration Network)を紹介する。
インパルス制御(英語版)として知られる政策を用いて、スイッチャーは探索政策に切り替える最良の状態のセットを決定することができる。
我々は、SERENが急速に収束し、純粋な搾取に向けた自然なスケジュールを導き出すことを証明した。
論文 参考訳(メタデータ) (2022-05-30T12:44:56Z) - Follow your Nose: Using General Value Functions for Directed Exploration
in Reinforcement Learning [5.40729975786985]
本稿では,汎用価値関数(GVF)と有向探索戦略を用いて,探索と補助的タスク学習を組み合わせることを提案する。
3つのナビゲーションタスクにおいて、手作業ではなく選択肢(アクションのシーケンス)を学習し、パフォーマンス上の優位性を実証する簡単な方法を提供する。
論文 参考訳(メタデータ) (2022-03-02T05:14:11Z) - Cooperative Exploration for Multi-Agent Deep Reinforcement Learning [127.4746863307944]
深層強化学習のための協調型マルチエージェント探索(CMAE)を提案する。
ゴールは正規化エントロピーに基づく手法により、複数の射影状態空間から選択される。
CMAEが様々なタスクのベースラインを一貫して上回っていることを実証する。
論文 参考訳(メタデータ) (2021-07-23T20:06:32Z) - MADE: Exploration via Maximizing Deviation from Explored Regions [48.49228309729319]
オンライン強化学習(RL)では、高次元環境における効率的な探索は依然として困難であり、報酬は少ない。
調査地域からの次の政策の逸脱を最大化することによる新たな探索手法を提案する。
提案手法は,最先端手法よりもサンプル効率を著しく向上させる。
論文 参考訳(メタデータ) (2021-06-18T17:57:00Z) - BeBold: Exploration Beyond the Boundary of Explored Regions [66.88415950549556]
本稿では,本質的報酬(IR)の簡便かつ効果的な基準として,逆訪問回数の規制的差異を提案する。
この基準は、エージェントが探索された地域の境界を越えて探索し、短視力や分離などのカウントベースの方法の一般的な問題を緩和するのに役立ちます。
その結果得られたBeBoldは、MiniGridの12の最も難しい手続き的タスクを、カリキュラムの学習なしにわずか120万の環境ステップで解決する。
論文 参考訳(メタデータ) (2020-12-15T21:26:54Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。