論文の概要: Chunking the Critic: A Transformer-based Soft Actor-Critic with N-Step Returns
- arxiv url: http://arxiv.org/abs/2503.03660v3
- Date: Mon, 29 Sep 2025 16:19:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:44:59.69437
- Title: Chunking the Critic: A Transformer-based Soft Actor-Critic with N-Step Returns
- Title(参考訳): 批判のチャンキング:Nステップリターンを持つトランスフォーマーベースのソフトアクター・クリティカル
- Authors: Dong Tian, Onur Celik, Gerhard Neumann,
- Abstract要約: ソフトアクターのためのシーケンス条件付き批評家を紹介する--Critic (SAC)
我々の手法は,重要サンプリング(IS)を伴わずに,短い軌道セグメントを条件付け,複数ステップの戻り値を統合することによって,批判そのものを強化する。
その単純さにもかかわらず、私たちのアプローチは標準のSACと強力な非政治ベースラインを一貫して上回ります。
- 参考スコア(独自算出の注目度): 26.44033413426475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a sequence-conditioned critic for Soft Actor--Critic (SAC) that models trajectory context with a lightweight Transformer and trains on aggregated $N$-step targets. Unlike prior approaches that (i) score state--action pairs in isolation or (ii) rely on actor-side action chunking to handle long horizons, our method strengthens the critic itself by conditioning on short trajectory segments and integrating multi-step returns -- without importance sampling (IS). The resulting sequence-aware value estimates capture the critical temporal structure for extended-horizon and sparse-reward problems. On local-motion benchmarks, we further show that freezing critic parameters for several steps makes our update compatible with CrossQ's core idea, enabling stable training \emph{without} a target network. Despite its simplicity -- a 2-layer Transformer with 128-256 hidden units and a maximum update-to-data ratio (UTD) of $1$ -- the approach consistently outperforms standard SAC and strong off-policy baselines, with particularly large gains on long-trajectory control. These results highlight the value of sequence modeling and $N$-step bootstrapping on the critic side for long-horizon reinforcement learning.
- Abstract(参考訳): 我々は、SAC(Soft Actor--Critic)のシーケンス条件付き批評家を紹介し、トラジェクトリコンテキストを軽量トランスフォーマーでモデル化し、集約された$N$-stepターゲットでトレーニングする。
従来のアプローチとは異なり
一 独立して状態-作用対を採点すること
i) 長い地平線を扱うためにアクター側のアクションチャンキングを頼りにしており、我々の手法は、短い軌道セグメントを条件付けし、重要サンプリング(IS)なしで多段階のリターンを統合することで、批評家自身を強化する。
得られたシーケンス認識値の推定値は、拡張水平およびスパース逆問題に対する臨界時間構造をキャプチャする。
ローカルモーションベンチマークでは、いくつかのステップで批判パラメータを凍結することで、CrossQのコアアイデアとの互換性が向上し、ターゲットネットワークとしてのemph{without}の安定したトレーニングが可能になった。
128-256の隠蔽ユニットと最大更新-データ比(UTD)が1ドルである2層トランスフォーマーの単純さにもかかわらず、このアプローチは標準のSACと強力なオフポリティベースラインを一貫して上回り、特に長距離制御において大きな利益を上げている。
これらの結果は,ロングホライゾン強化学習の批判側におけるシーケンスモデリングとN$ステップブートストラップの価値を強調した。
関連論文リスト
- AltTS: A Dual-Path Framework with Alternating Optimization for Multivariate Time Series Forecasting [27.971282358985604]
本稿では,自己回帰と相互関係モデリングを明確に分離するデュアルパスフレームワークであるALTSを提案する。
ALTTSは従来手法よりも優れており, 長期予測の精度が向上している。
論文 参考訳(メタデータ) (2026-02-12T03:45:00Z) - Optimal Sample Complexity for Single Time-Scale Actor-Critic with Momentum [62.691095807959215]
我々は,シングルタイムスケールアクター・クリティック(AC)アルゴリズムを用いて,$O(-2)$の最適なグローバルポリシを得るための最適なサンプル複雑性を確立する。
これらのメカニズムは、既存のディープラーニングアーキテクチャと互換性があり、実用的な適用性を損なうことなく、小さな修正しか必要としない。
論文 参考訳(メタデータ) (2026-02-02T00:35:42Z) - COMET-SG1: Lightweight Autoregressive Regressor for Edge and Embedded AI [0.0]
COMET-SG1は、エッジおよび組み込みAIシステム上での時系列予測のために設計された安定性指向の自己回帰回帰モデルである。
線形な振る舞い空間符号化、メモリアンコール遷移推定、決定論的状態更新を通じて動作する。
論文 参考訳(メタデータ) (2026-01-28T16:59:56Z) - Robust Adversarial Reinforcement Learning in Stochastic Games via Sequence Modeling [4.70145462798498]
対戦ゲームにおけるDTの堅牢性を高めるために設計された最初のフレームワークについて,我々は,CART(Reserve Adversarially Robust Decision Transformer)を紹介した。
CARTは、より正確なミニマックス値推定を実現し、様々な対戦ゲームにおいて、優れた最悪のケースリターンを継続的に達成する。
論文 参考訳(メタデータ) (2025-10-13T19:35:53Z) - Actor-Critic for Continuous Action Chunks: A Reinforcement Learning Framework for Long-Horizon Robotic Manipulation with Sparse Reward [85.84943447589511]
本稿では,高次元連続行動系列を生成するための新しいRLフレームワークであるAC3(Actor-Critic for Continuous Chunks)を紹介する。
この学習プロセスを安定させ、データ効率を高めるため、AC3はアクターと批評家の両方に目標安定化機構を組み込む。
論文 参考訳(メタデータ) (2025-08-15T01:27:15Z) - Fast Training of Recurrent Neural Networks with Stationary State Feedbacks [48.22082789438538]
リカレントニューラルネットワーク(RNN)は最近、Transformerよりも強力なパフォーマンスと高速な推論を実証している。
BPTTを固定勾配フィードバック機構で置き換える新しい手法を提案する。
論文 参考訳(メタデータ) (2025-03-29T14:45:52Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - Consensus-Adaptive RANSAC [104.87576373187426]
本稿では,パラメータ空間の探索を学習する新しいRANSACフレームワークを提案する。
注意機構は、ポイント・ツー・モデル残差のバッチで動作し、軽量のワンステップ・トランスフォーマーで見いだされたコンセンサスを考慮するために、ポイント・ツー・モデル推定状態を更新する。
論文 参考訳(メタデータ) (2023-07-26T08:25:46Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - Solving Continuous Control via Q-learning [54.05120662838286]
深いQ-ラーニングの簡単な修正は、アクター批判的手法による問題を大幅に軽減することを示します。
バンバン動作の離散化と値分解、協調マルチエージェント強化学習(MARL)としての単一エージェント制御のフレーミングにより、このシンプルな批判のみのアプローチは、最先端の連続アクター批判法の性能と一致する。
論文 参考訳(メタデータ) (2022-10-22T22:55:50Z) - On the Reuse Bias in Off-Policy Reinforcement Learning [28.29153543457396]
Reuse Biasは、評価と最適化のためのリプレイバッファの再利用によって生じる、政治外の評価のバイアスである。
本稿では,リプレイバッファのデータによる現在の政策の非政治的評価と最適化が,目的を過大評価する結果となることを示す。
本稿では,新しいBIRIS(Bias-Regularized Importance Smpling)フレームワークと,Reuse Biasの悪影響を軽減する実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-15T06:20:36Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - Back to Basics: Efficient Network Compression via IMP [22.586474627159287]
イテレーティブ・マグニチュード・プルーニング(IMP)は、ネットワーク・プルーニングにおける最も確立されたアプローチの1つである。
IMPは、トレーニングフェーズにスパーシフィケーションを組み込まないことで、最適以下の状態に達するとしばしば主張される。
再学習のためのSLRを用いたIMPは、最先端のプルーニング訓練手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-11-01T11:23:44Z) - Layer Pruning on Demand with Intermediate CTC [50.509073206630994]
我々はコネクショニスト時間分類(CTC)に基づくASRの訓練と刈り取り方法を提案する。
本稿では,Transformer-CTCモデルをオンデマンドで様々な深さでプルーニングできることを示し,GPU上でのリアルタイム係数を0.005から0.002に改善した。
論文 参考訳(メタデータ) (2021-06-17T02:40:18Z) - Variance Penalized On-Policy and Off-Policy Actor-Critic [60.06593931848165]
本稿では,平均値と変動値の両方を含むパフォーマンス基準を最適化する,オン・ポリティィおよびオフ・ポリティィ・アクター・クリティカルなアルゴリズムを提案する。
提案手法は, アクタ批判的かつ事前の分散-ペナライゼーションベースラインに匹敵するだけでなく, リターンのばらつきが低いトラジェクトリも生成する。
論文 参考訳(メタデータ) (2021-02-03T10:06:16Z) - Gradient-EM Bayesian Meta-learning [6.726255259929496]
ベイズメタラーニングの背後にある主要なアイデアは、階層的モデルのベイズ推論を経験的に行うことである。
本研究では、このフレームワークを様々な既存手法に拡張し、勾配-EMアルゴリズムに基づく変種を提案する。
正弦波回帰, 少数ショット画像分類, およびポリシーに基づく強化学習実験により, 本手法は計算コストを抑えて精度を向上するだけでなく, 不確実性に対しても頑健であることが示された。
論文 参考訳(メタデータ) (2020-06-21T10:52:59Z) - Band-limited Soft Actor Critic Model [15.11069042369131]
SAC(Soft Actor Critic)アルゴリズムは複雑なシミュレーション環境において顕著な性能を示す。
我々は、このアイデアをさらに一歩進めて、対象の批判的空間分解能を人工的にバンドリミットする。
線形の場合、閉形式解を導出し、バンドリミットが状態-作用値近似の低周波数成分間の相互依存性を減少させることを示す。
論文 参考訳(メタデータ) (2020-06-19T22:52:43Z) - How to Learn a Useful Critic? Model-based Action-Gradient-Estimator
Policy Optimization [10.424426548124696]
本稿では,政策勾配理論に基づくモデルに基づくアクター批判アルゴリズムであるMAGEを提案する。
MAGEは学習されたダイナミクスを通じて逆伝搬し、時間差学習において勾配目標を計算する。
モデルフリーおよびモデルベースベースラインと比較して,アルゴリズムの効率性を示す。
論文 参考訳(メタデータ) (2020-04-29T16:30:53Z) - Online Meta-Critic Learning for Off-Policy Actor-Critic Methods [107.98781730288897]
Off-Policy Actor-Critic (Off-PAC)法は、様々な連続制御タスクで成功している。
本稿では,学習過程を観察し,アクターにさらなる損失を与える新しい,フレキシブルなメタクリティカルを導入する。
論文 参考訳(メタデータ) (2020-03-11T14:39:49Z) - Top-k Training of GANs: Improving GAN Performance by Throwing Away Bad
Samples [67.11669996924671]
GAN(Generative Adversarial Network)トレーニングアルゴリズムに,簡単な修正(一行のコード)を導入する。
ジェネレータパラメータを更新するとき、批判者が最も現実的に評価するバッチの要素から勾配のコントリビューションをゼロにします。
このトップk更新の手順が一般的に適用可能な改善であることを示す。
論文 参考訳(メタデータ) (2020-02-14T19:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。