論文の概要: CAE: Repurposing the Critic as an Explorer in Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2503.18980v1
- Date: Sun, 23 Mar 2025 04:59:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:52:58.201573
- Title: CAE: Repurposing the Critic as an Explorer in Deep Reinforcement Learning
- Title(参考訳): CAE: 深層強化学習のエクスプローラとしての批判
- Authors: Yexin Li, Pring Wong, Hanfang Zhang, Shuo Chen, Siyuan Qi,
- Abstract要約: 我々は,標準深部RLアルゴリズムの値ネットワークを再利用して探索を行う軽量アルゴリズムであるCAEを紹介する。
CAEは実装が簡単で、約10行のコードしか必要としない。
実効価値ネットワークの学習が困難である複雑なタスクでは,CAE+を提案する。
この拡張は、実装の単純さを維持しながらパラメータ数を1%以下に増やし、追加で10行のコードを追加するだけである。
- 参考スコア(独自算出の注目度): 10.148620633513952
- License:
- Abstract: Exploration remains a critical challenge in reinforcement learning, as many existing methods either lack theoretical guarantees or fall short of practical effectiveness. In this paper, we introduce CAE, a lightweight algorithm that repurposes the value networks in standard deep RL algorithms to drive exploration without introducing additional parameters. CAE utilizes any linear multi-armed bandit technique and incorporates an appropriate scaling strategy, enabling efficient exploration with provable sub-linear regret bounds and practical stability. Notably, it is simple to implement, requiring only around 10 lines of code. In complex tasks where learning an effective value network proves challenging, we propose CAE+, an extension of CAE that incorporates an auxiliary network. This extension increases the parameter count by less than 1% while maintaining implementation simplicity, adding only about 10 additional lines of code. Experiments on MuJoCo and MiniHack show that both CAE and CAE+ outperform state-of-the-art baselines, bridging the gap between theoretical rigor and practical efficiency.
- Abstract(参考訳): 多くの既存の手法は理論的な保証を欠いているか、実際的な効果に欠けているため、探索は強化学習において重要な課題である。
本稿では,標準深部RLアルゴリズムの値ネットワークを再利用し,新たなパラメータを導入することなく探索を促進する軽量アルゴリズムであるCAEを紹介する。
CAEは任意の線形多重武装バンディット手法を利用し、適切なスケーリング戦略を取り入れ、証明可能なサブ線形後悔境界による効率的な探索と実用的安定性を実現する。
特に、実装は簡単で、約10行のコードしか必要としない。
有効価値ネットワークの学習が困難である複雑なタスクでは,補助的ネットワークを組み込んだCAEの拡張であるCAE+を提案する。
この拡張は、実装の単純さを維持しながらパラメータ数を1%以下に増やし、追加で10行のコードを追加するだけである。
MuJoCoとMiniHackの実験では、CAEとCAE+はどちらも最先端のベースラインより優れており、理論的な厳密さと実用効率のギャップを埋めている。
関連論文リスト
- Attribution Patching Outperforms Automated Circuit Discovery [3.8695554579762814]
帰属パッチに基づく単純な手法が,既存の手法よりも優れていることを示す。
演算サブグラフにおける各エッジの重要性を推定するために、線形近似をアクティベーションパッチに適用する。
論文 参考訳(メタデータ) (2023-10-16T12:34:43Z) - DeepZero: Scaling up Zeroth-Order Optimization for Deep Model Training [33.11416096294998]
ゼロオーダー(ZO)最適化は、機械学習(ML)問題を解決する一般的なテクニックとなっている。
ディープニューラルネットワーク(DNN)のトレーニングにおけるZO最適化の有効性を、パフォーマンスを著しく低下させることなく実証した以前の研究はない。
我々は,ZO最適化をDNNトレーニングにスクラッチから拡張可能なZOディープラーニング(DL)フレームワークであるDeepZeroを開発した。
論文 参考訳(メタデータ) (2023-10-03T13:05:36Z) - Towards Sustainable Learning: Coresets for Data-efficient Deep Learning [9.51481812606879]
CRESTは、データセットに関する厳密な理論的サブセット実験を備えた、最初のスケーラブルなサブセットディープネットワークフレームワークである。
CRESTは、非イメージ関数の最も価値のある例を特定している。
論文 参考訳(メタデータ) (2023-06-02T02:51:08Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z) - Meta Reinforcement Learning with Successor Feature Based Context [51.35452583759734]
本稿では,既存のメタRLアルゴリズムと競合する性能を実現するメタRL手法を提案する。
本手法は,複数のタスクに対して同時に高品質なポリシーを学習するだけでなく,短時間のトレーニングで新しいタスクに迅速に適応できる。
論文 参考訳(メタデータ) (2022-07-29T14:52:47Z) - Adaptive Channel Allocation for Robust Differentiable Architecture Search [22.898344333732044]
微分可能なArchiTecture Search(DARTS)は、その単純さと効率の大幅な向上により、多くの注目を集めている。
スキップ接続の過度な蓄積は、訓練エポックが大きくなると、安定性とロバスト性に悩まされる。
より微妙で直接的なアプローチとして,検索段階における接続のスキップを明示的に検索しないアプローチを提案する。
論文 参考訳(メタデータ) (2022-04-10T13:25:36Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - CATRO: Channel Pruning via Class-Aware Trace Ratio Optimization [61.71504948770445]
本稿では,CATRO (Class-Aware Trace Ratio Optimization) を用いた新しいチャネルプルーニング手法を提案する。
CATROは、他の最先端チャネルプルーニングアルゴリズムと同等の精度で、同様のコストまたは低コストで高い精度を達成できることを示す。
CATROは、クラス認識の特性のため、様々な分類サブタスクに適応的に効率の良いネットワークを創り出すのに適している。
論文 参考訳(メタデータ) (2021-10-21T06:26:31Z) - Efficient Feature Transformations for Discriminative and Generative
Continual Learning [98.10425163678082]
継続的学習のための簡易タスク特化機能マップ変換戦略を提案する。
これらは新しいタスクを学習するための強力な柔軟性を提供し、ベースアーキテクチャに最小パラメータを追加することで実現される。
本手法の有効性と効率を,判別(cifar-100およびimagenet-1k)および生成的タスクの一連の実験を用いて実証する。
論文 参考訳(メタデータ) (2021-03-25T01:48:14Z) - CATCH: Context-based Meta Reinforcement Learning for Transferrable
Architecture Search [102.67142711824748]
CATCHは、転送可能なarChitecture searcHのための、Context-bAsed meTa強化学習アルゴリズムである。
メタラーニングとRLの組み合わせにより、CATCHは検索空間に依存しないまま、新しいタスクに効率的に適応できる。
また、ImageNet、COCO、Cityscapesの競合ネットワークとしてクロスドメインアーキテクチャサーチを扱うこともできる。
論文 参考訳(メタデータ) (2020-07-18T09:35:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。