論文の概要: Enhancing Control Policy Smoothness by Aligning Actions with Predictions from Preceding States
- arxiv url: http://arxiv.org/abs/2601.18479v1
- Date: Mon, 26 Jan 2026 13:34:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.846189
- Title: Enhancing Control Policy Smoothness by Aligning Actions with Predictions from Preceding States
- Title(参考訳): 先進国からの予測による行動調整による制御政策の平滑化
- Authors: Kyoleen Kwak, Hyoseok Hwang,
- Abstract要約: 先行状態からの予測を伴う行動調整による行動平滑化(ASAP)
ASAPは、遷移によって引き起こされた類似状態にあるものとの作用を調整し、二階差分をペナル化して高周波発振を抑制することで作用発振を緩和する。
GymnasiumおよびIsaac-Lab環境での実験は、ASAPが既存の方法よりもスムーズな制御とポリシー性能を向上させることを示した。
- 参考スコア(独自算出の注目度): 7.3193427091420675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning has proven to be a powerful approach to solving control tasks, but its characteristic high-frequency oscillations make it difficult to apply in real-world environments. While prior methods have addressed action oscillations via architectural or loss-based methods, the latter typically depend on heuristic or synthetic definitions of state similarity to promote action consistency, which often fail to accurately reflect the underlying system dynamics. In this paper, we propose a novel loss-based method by introducing a transition-induced similar state. The transition-induced similar state is defined as the distribution of next states transitioned from the previous state. Since it utilizes only environmental feedback and actually collected data, it better captures system dynamics. Building upon this foundation, we introduce Action Smoothing by Aligning Actions with Predictions from Preceding States (ASAP), an action smoothing method that effectively mitigates action oscillations. ASAP enforces action smoothness by aligning the actions with those taken in transition-induced similar states and by penalizing second-order differences to suppress high-frequency oscillations. Experiments in Gymnasium and Isaac-Lab environments demonstrate that ASAP yields smoother control and improved policy performance over existing methods.
- Abstract(参考訳): 深層強化学習は制御タスクの解くための強力なアプローチであることが証明されているが、その特徴的な高周波振動は現実世界の環境では適用が困難である。
従来の手法は、アーキテクチャや損失に基づく手法でアクションの発振に対処してきたが、後者は通常、動作の一貫性を促進するために、状態類似性のヒューリスティックあるいは合成的な定義に依存している。
本稿では,遷移誘起類似状態を導入し,損失に基づく新しい手法を提案する。
遷移誘起類似状態は、前の状態から遷移した次の状態の分布として定義される。
環境フィードバックのみを利用し、実際に収集したデータを利用するため、システムのダイナミクスをよりよく捉えることができる。
本研究は,行動の発振を効果的に緩和する行動平滑化法である,先行状態からの予測による行動平滑化(ASAP)を提案する。
ASAPは、動作を遷移誘起の類似状態にあるものと整列させ、二階差をペナル化して高周波発振を抑制することで、動作の滑らかさを強制する。
GymnasiumおよびIsaac-Lab環境での実験は、ASAPが既存の方法よりもスムーズな制御とポリシー性能を向上させることを示した。
関連論文リスト
- Theoretical Closed-loop Stability Bounds for Dynamical System Coupled with Diffusion Policies [39.499082381148035]
本研究は、作用を実行する前に部分的にしか除音処理を行わない可能性について研究し、コンピュータ上で進行する逆時間拡散ダイナミクスと平行して植物が動的に進化することを可能にする。
この研究の貢献により、高速な模倣学習のためのフレームワークと、デモのばらつきに基づいてコントローラが安定しているかどうかを判断するメトリクスが提供される。
論文 参考訳(メタデータ) (2025-11-19T15:13:08Z) - Conditioning Matters: Training Diffusion Policies is Faster Than You Think [69.31534053485711]
拡散政策は、視覚言語アクション(VLA)モデルを構築するための主流パラダイムとして登場した。
条件拡散政策訓練の基本的な課題は, 生成条件の識別が困難である場合, 訓練対象が限界行動分布をモデル化することである。
条件に依存しない条件付きフローマッチングにおけるソース分布を変更するソリューションであるCocosを提案する。
論文 参考訳(メタデータ) (2025-05-16T11:14:22Z) - Denoising-based Contractive Imitation Learning [1.3518297878940662]
デノナイジング機構は状態遷移写像の収縮特性を高める。
本手法は実装が容易で,既存の模倣学習フレームワークと容易に統合できる。
実験により,本手法は雑音摂動下での様々な模倣学習タスクの成功率を効果的に向上することを示した。
論文 参考訳(メタデータ) (2025-03-20T07:52:19Z) - HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model [54.64088247291416]
操作ポリシー設計の基本的な目的は、ロボットに人間の指示を理解し、シーンの手がかりを推論し、動的な環境で一般化されたアクションを実行することである。
近年の自己回帰的視覚言語行動(VLA)法は、視覚言語モデル(VLM)から常識推論能力を継承し、次の行動予測を行う。
拡散に基づく行動の連続的な性質と自己回帰の文脈的推論を吸収する統合フレームワークであるHybridVLAを紹介する。
論文 参考訳(メタデータ) (2025-03-13T17:59:52Z) - Controlling dynamical systems into unseen target states using machine learning [45.84205238554709]
我々は、複雑な力学系を以前に見つからなかったターゲット状態に制御するための、モデルフリーでデータ駆動の方法論を提案する。
提案手法は、観測されていないパラメータ状態におけるシステムの挙動を正確に予測し、任意の目標状態への遷移を制御できるようにする。
論文 参考訳(メタデータ) (2024-12-13T16:21:56Z) - Contractive Dynamical Imitation Policies for Efficient Out-of-Sample Recovery [3.549243565065057]
模倣学習(imitation learning)は、専門家の行動からポリシーを学ぶための、データ駆動型アプローチである。
OOS(Out-of-sample)領域では信頼性の低い結果が出る傾向がある。
本稿では,契約型力学系をモデルとした政策学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-10T14:28:18Z) - Bidirectional Decoding: Improving Action Chunking via Guided Test-Time Sampling [51.38330727868982]
動作チャンキングが学習者と実証者の間の分岐にどのように影響するかを示す。
動作チャンキングをクローズドループ適応でブリッジするテスト時間推論アルゴリズムである双方向デコーディング(BID)を提案する。
提案手法は、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させる。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - Value Iteration in Continuous Actions, States and Time [99.00362538261972]
連続状態と動作に対する連続的適合値反復(cFVI)アルゴリズムを提案する。
非線形制御アフィンダイナミクスに対して最適なポリシを導出することができる。
物理システムのビデオは、urlhttps://sites.google.com/view/value-iteration.comで入手できる。
論文 参考訳(メタデータ) (2021-05-10T21:40:56Z) - Sparse Identification of Nonlinear Dynamical Systems via Reweighted
$\ell_1$-regularized Least Squares [62.997667081978825]
本研究は, 非線形系の制御方程式をノイズ状態測定から復元するための繰り返しスパース規則化回帰法を提案する。
本研究の目的は、状態測定ノイズの存在下での手法の精度とロバスト性を改善することである。
論文 参考訳(メタデータ) (2020-05-27T08:30:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。