論文の概要: ZAPS-DA: Zero-Phase Action Policy Smoothing with Decoupled Actor for Continuous Control in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.30612v1
- Date: Thu, 28 May 2026 22:05:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 20:56:50.261144
- Title: ZAPS-DA: Zero-Phase Action Policy Smoothing with Decoupled Actor for Continuous Control in Reinforcement Learning
- Title(参考訳): ZAPS-DA:強化学習における連続制御のための非結合アクタによるゼロ位相アクションポリシーの平滑化
- Authors: Faiq Shamass,
- Abstract要約: ZAPS-DAは、無視可能なフェーズラグと後処理のないデプロイ時のアクションジッタを低減するフレームワークである。
MetaDriveでは、ZAPS-DAはステアリングジッタを14-21x、スロットルジッタを3-5x削減する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continuous control policies trained with off-policy reinforcement learning frequently exhibit high-frequency action jitter, rendering direct deployment on physical actuators impractical. Post-hoc filtering attenuates jitter but introduces phase lag; embedding smoothness penalties in the actor's loss couples them with the RL gradient and conflates reward regression with over-aggressive smoothing. We present ZAPS-DA, a framework that reduces action jitter at deployment with negligible phase lag and no post-processing. ZAPS-DA pairs an unmodified main actor (trained by the base RL loss) with a separate decoupled actor trained via supervised imitation of zero-phase filtered targets stored in the replay buffer. The deployed policy is the decoupled actor: a feed-forward map from the current observation to a smooth action, with no inference-time filter and no action-history input -- a mechanism we term causal distillation of a non-causal filter. A magnitude-matched MSE loss provides zero-hyperparameter portability across optimizer classes. Validated with Soft Actor-Critic and a Savitzky--Golay filter in two driving simulators using paired n=150 evaluation protocols: on MetaDrive, ZAPS-DA reduces steering jitter by 14--21x and throttle jitter by 3--5x (all $p < 10^{-4}$, Bonferroni-corrected) while matching task-completion (p=0.28 success, p=0.31 crash) at a 6.3% reward cost; on a custom Webots adaptive cruise control environment, the same SG configuration produces a Pareto improvement -- reward parity (p=0.121), 8--45x steering jitter reduction, and total task-failure rate reduced from 2.0% to 0.7%.
- Abstract(参考訳): 政治外の強化学習で訓練された継続的制御ポリシーは、しばしば高周波の作用ジッタを示し、物理的なアクチュエータへの直接配置は非現実的である。
アクターの損失に滑らかさのペナルティを埋め込むと、RL勾配と結合し、過剰な攻撃的スムース化と報酬の回帰を混同する。
ZAPS-DAは、無視可能なフェーズラグと後処理のないデプロイ時のアクションジッタを低減するフレームワークである。
ZAPS-DAは、未修正のメインアクター(ベースRL損失によって訓練された)と、リプレイバッファに格納されたゼロフェーズフィルタされたターゲットの教師付き模倣によって訓練された別個の分離されたアクターとをペアリングする。
現在の観測からスムーズな行動へのフィードフォワードマップ、推論時フィルタなし、アクション履歴入力なし、非因果フィルタの因果蒸留と呼ばれるメカニズムである。
等級整合MSE損失は、オプティマイザクラス間でゼロハイパーパラメータポータビリティを提供する。
MetaDriveでは、ZAPS-DAはステアリングジッターを14-21x、スロットルジッターを3-5x(all $p < 10^{-4}$, Bonferroni-corrected)に減らし、タスク補完(p=0.28成功、p=0.31クラッシュ)を6.3%の報酬で行う。
関連論文リスト
- AIS: Adaptive Importance Sampling for Quantized RL [21.387834718338496]
大規模言語モデル(LLM)の強化学習はロールアウト生成のコストに支配されている。
これは、ロールアウトトレーニングミスマッチを導入し、ポリシー勾配を偏り、推論ベンチマークでトレーニングが完全に崩壊する可能性がある。
このミスマッチは非定常的であり、二重刃の剣として機能し、初期のトレーニングでは探索ボーナスを提供し、トレーナーがアンダーサンプするトラジェクトリーへの勾配を露呈する。
本稿では,適応的重要度サンプリング(AIS)を提案する。
論文 参考訳(メタデータ) (2026-05-13T03:36:57Z) - SOAR: Self-Correction for Optimal Alignment and Refinement in Diffusion Models [48.335262141752715]
拡散モデルのための後トレーニングパイプラインには、キュレートされたデータに対する教師付き微調整(SFT)と報酬モデルによる強化学習(RL)の2段階がある。
本稿では,このギャップを埋めるバイアス補正ポストトレーニング法であるSOAR(Self-Correction for Optimal Alignment and Refinement)を提案する。
オンライン政治であり、報酬なしであり、クレジット割り当ての問題なく、時間ごとの密集した監督を提供する。
論文 参考訳(メタデータ) (2026-04-14T11:45:15Z) - A1: A Fully Transparent Open-Source, Adaptive and Efficient Truncated Vision-Language-Action Model [112.9420001646428]
VLA(Vision-Language-Action)モデルは、オープンワールドロボット操作の強力なパラダイムとして登場したが、実際の展開はコストに制約されることが多い。
我々は、低コストで高スループットな推論のために設計された、完全にオープンソースで透明なVLAフレームワークであるA1を提示する。
A1は最先端の成功率を達成すると同時に、推論コストを大幅に削減する。
論文 参考訳(メタデータ) (2026-04-07T10:18:40Z) - Meta-Adaptive Beam Search Planning for Transformer-Based Reinforcement Learning Control of UAVs with Overhead Manipulators under Flight Disturbances [8.618483849755604]
オーバーヘッドマニピュレータを備えたドローンは、検査、メンテナンス、コンタクトベースのインタラクションにユニークな機能を提供する。
ドローンとそのマニピュレータの動作は強く結びついており、風や制御の欠陥による小さな姿勢の変化でさえ、エンドエフェクターを意図した経路から遠ざける。
変換器をベースとしたDouble Deep Q Learning (DDQN) を用いた強化学習フレームワークを開発した。
これにより、コントローラは実際のモデル上でこれらのアクションを直接実行するのではなく、シミュレーションされたロールアウトを通じてエンドエフェクタの動きを予測できる。
論文 参考訳(メタデータ) (2026-03-27T17:08:40Z) - Astrolabe: Steering Forward-Process Reinforcement Learning for Distilled Autoregressive Video Models [58.3184497327891]
蒸留自己回帰(AR)ビデオモデルは、効率的なストリーミング生成を可能にするが、しばしば人間の視覚的嗜好に反する。
蒸留ARモデルに適した効率的なオンライン強化学習フレームワークであるAstrolabeを提案する。
論文 参考訳(メタデータ) (2026-03-17T18:32:18Z) - Diffusion Controller: Framework, Algorithms and Parameterization [54.82539154511621]
本稿では,逆拡散サンプリングを(一般化された)線形解法マルコフ決定過程における状態のみの制御として活用する統一的な制御理論的視点を提案する。
このフレームワークでは、制御はトレーニング済みのリバースタイムのトランジションカーネルを再重み付けし、端末の目的と$f$分割コストのバランスをとる。
安定拡散v1.4の実験では、選好調整の勝利率が一貫した上昇を示し、品質効率のトレードオフを改善した。
論文 参考訳(メタデータ) (2026-03-07T01:49:59Z) - IR$^3$: Contrastive Inverse Reinforcement Learning for Interpretable Detection and Mitigation of Reward Hacking [67.20568716300272]
Reinforcement Learning from Human Feedback (RLHF)は強力なLDMアライメントを実現するが、報酬ハッキングを導入することができる。
IR3(Interpretable Reward Reconstruction and Rectification)は,RLHFモデルを用いた暗黙的目標をリバースエンジニアリングし,解釈し,外科的に修復するフレームワークである。
我々は、IR3が地道報酬と0.89の相関を達成し、90%以上の精度でハッキング機能を識別し、元のモデルの3%以内の機能を維持しながら、ハッキングの挙動を著しく低減することを示した。
論文 参考訳(メタデータ) (2026-02-23T01:14:53Z) - SAIR: Cost-Efficient Multi-Stage ML Pipeline Autoscaling via In-Context Reinforcement Learning [13.174004826305255]
マルチステージML推論パイプラインは、異種リソース、クロスステージ結合、動的ボトルネックマイグレーションによる自動スケールが難しい。
本稿では,LLMをテキスト内強化学習コントローラとして使用する自動スケーリングフレームワークであるSAIRを提案する。
SAIRはデプロイベースライン間で最高のあるいは結びついたP99レイテンシと効果的なリソースコストを実現し、P99を最大50%改善し、有効コストを最大97%削減する。
論文 参考訳(メタデータ) (2026-01-29T23:08:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。