論文の概要: Chunking the Critic: A Transformer-based Soft Actor-Critic with N-Step Returns
- arxiv url: http://arxiv.org/abs/2503.03660v2
- Date: Thu, 06 Mar 2025 15:32:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 12:14:22.795031
- Title: Chunking the Critic: A Transformer-based Soft Actor-Critic with N-Step Returns
- Title(参考訳): 批判のチャンキング:Nステップリターンを持つトランスフォーマーベースのソフトアクター・クリティカル
- Authors: Dong Tian, Ge Li, Hongyi Zhou, Onur Celik, Gerhard Neumann,
- Abstract要約: SAC(Soft Actor-Critic)は批判的ネットワークに依存している。
N-returnsフレームワークを安定かつ効率的に統合したTransformer-based Critic Network for SACを提案する。
- 参考スコア(独自算出の注目度): 28.849059036651713
- License:
- Abstract: Soft Actor-Critic (SAC) critically depends on its critic network, which typically evaluates a single state-action pair to guide policy updates. Using N-step returns is a common practice to reduce the bias in the target values of the critic. However, using N-step returns can again introduce high variance and necessitates importance sampling, often destabilizing training. Recent algorithms have also explored action chunking-such as direct action repetition and movement primitives-to enhance exploration. In this paper, we propose a Transformer-based Critic Network for SAC that integrates the N-returns framework in a stable and efficient manner. Unlike approaches that perform chunking in the actor network, we feed chunked actions into the critic network to explore potential performance gains. Our architecture leverages the Transformer's ability to process sequential information, facilitating more robust value estimation. Empirical results show that this method not only achieves efficient, stable training but also excels in sparse reward/multi-phase environments-traditionally a challenge for step-based methods. These findings underscore the promise of combining Transformer-based critics with N-returns to advance reinforcement learning performance
- Abstract(参考訳): SAC(Soft Actor-Critic)は批判的ネットワークに依存している。
N-stepリターンの使用は、批評家の目標値のバイアスを減らすための一般的なプラクティスである。
しかし、Nステップの戻り値を使用することで、またもや高い分散が生じ、重要なサンプリングが必要となり、しばしばトレーニングを不安定にする。
近年のアルゴリズムでは、直接行動反復や運動プリミティブといったアクションチャンキングも検討され、探索が強化されている。
本稿では,N-returnsフレームワークを安定かつ効率的に統合したTransformer-based Critic Network for SACを提案する。
アクターネットワークでチャンキングを行うアプローチとは異なり、批判ネットワークにチャンクされたアクションを投入して、潜在的なパフォーマンス向上を探索する。
我々のアーキテクチャはTransformerのシーケンシャルな情報処理能力を活用し、より堅牢な値推定を容易にする。
実験により, 本手法は, 効率的で安定した訓練を実現するだけでなく, スパース報酬/マルチフェーズ環境にも優れており, 従来はステップベース手法の課題であった。
これらの結果は、トランスフォーマーをベースとした批評家とN-リターンを組み合わせて強化学習性能を向上させるという約束を裏付けるものである。
関連論文リスト
- End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - Solving Continuous Control via Q-learning [54.05120662838286]
深いQ-ラーニングの簡単な修正は、アクター批判的手法による問題を大幅に軽減することを示します。
バンバン動作の離散化と値分解、協調マルチエージェント強化学習(MARL)としての単一エージェント制御のフレーミングにより、このシンプルな批判のみのアプローチは、最先端の連続アクター批判法の性能と一致する。
論文 参考訳(メタデータ) (2022-10-22T22:55:50Z) - On the Reuse Bias in Off-Policy Reinforcement Learning [28.29153543457396]
Reuse Biasは、評価と最適化のためのリプレイバッファの再利用によって生じる、政治外の評価のバイアスである。
本稿では,リプレイバッファのデータによる現在の政策の非政治的評価と最適化が,目的を過大評価する結果となることを示す。
本稿では,新しいBIRIS(Bias-Regularized Importance Smpling)フレームワークと,Reuse Biasの悪影響を軽減する実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-15T06:20:36Z) - You Can't Count on Luck: Why Decision Transformers Fail in Stochastic
Environments [31.117949189062895]
予測タスクへの強化学習を減らし、教師付き学習(RvS)によって解決する決定変換器は、その単純さ、ハイパースに対する堅牢性、オフラインタスクにおける全体的なパフォーマンスの強化などにより人気を博している。
しかし、単にモデルに所望のリターンを条件付け、予測されたアクションを取るだけで、運の悪さによるリターンをもたらす環境において、劇的に失敗する可能性がある。
本稿では,環境におけるRvSアプローチの限界について述べ,その解決策を提案する。
従来の手法のように単一軌道の戻りを単に条件づけるのではなく、提案手法であるESPERはクラスタ・トラジェクトリと条件を学ぶ。
論文 参考訳(メタデータ) (2022-05-31T17:15:44Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - Back to Basics: Efficient Network Compression via IMP [22.586474627159287]
イテレーティブ・マグニチュード・プルーニング(IMP)は、ネットワーク・プルーニングにおける最も確立されたアプローチの1つである。
IMPは、トレーニングフェーズにスパーシフィケーションを組み込まないことで、最適以下の状態に達するとしばしば主張される。
再学習のためのSLRを用いたIMPは、最先端のプルーニング訓練手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-11-01T11:23:44Z) - Variance Penalized On-Policy and Off-Policy Actor-Critic [60.06593931848165]
本稿では,平均値と変動値の両方を含むパフォーマンス基準を最適化する,オン・ポリティィおよびオフ・ポリティィ・アクター・クリティカルなアルゴリズムを提案する。
提案手法は, アクタ批判的かつ事前の分散-ペナライゼーションベースラインに匹敵するだけでなく, リターンのばらつきが低いトラジェクトリも生成する。
論文 参考訳(メタデータ) (2021-02-03T10:06:16Z) - Gradient-EM Bayesian Meta-learning [6.726255259929496]
ベイズメタラーニングの背後にある主要なアイデアは、階層的モデルのベイズ推論を経験的に行うことである。
本研究では、このフレームワークを様々な既存手法に拡張し、勾配-EMアルゴリズムに基づく変種を提案する。
正弦波回帰, 少数ショット画像分類, およびポリシーに基づく強化学習実験により, 本手法は計算コストを抑えて精度を向上するだけでなく, 不確実性に対しても頑健であることが示された。
論文 参考訳(メタデータ) (2020-06-21T10:52:59Z) - How to Learn a Useful Critic? Model-based Action-Gradient-Estimator
Policy Optimization [10.424426548124696]
本稿では,政策勾配理論に基づくモデルに基づくアクター批判アルゴリズムであるMAGEを提案する。
MAGEは学習されたダイナミクスを通じて逆伝搬し、時間差学習において勾配目標を計算する。
モデルフリーおよびモデルベースベースラインと比較して,アルゴリズムの効率性を示す。
論文 参考訳(メタデータ) (2020-04-29T16:30:53Z) - Online Meta-Critic Learning for Off-Policy Actor-Critic Methods [107.98781730288897]
Off-Policy Actor-Critic (Off-PAC)法は、様々な連続制御タスクで成功している。
本稿では,学習過程を観察し,アクターにさらなる損失を与える新しい,フレキシブルなメタクリティカルを導入する。
論文 参考訳(メタデータ) (2020-03-11T14:39:49Z) - Top-k Training of GANs: Improving GAN Performance by Throwing Away Bad
Samples [67.11669996924671]
GAN(Generative Adversarial Network)トレーニングアルゴリズムに,簡単な修正(一行のコード)を導入する。
ジェネレータパラメータを更新するとき、批判者が最も現実的に評価するバッチの要素から勾配のコントリビューションをゼロにします。
このトップk更新の手順が一般的に適用可能な改善であることを示す。
論文 参考訳(メタデータ) (2020-02-14T19:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。