論文の概要: Action-Constrained Imitation Learning
- arxiv url: http://arxiv.org/abs/2508.14379v1
- Date: Wed, 20 Aug 2025 03:19:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.322557
- Title: Action-Constrained Imitation Learning
- Title(参考訳): 行動に制約のある模倣学習
- Authors: Chia-Han Yeh, Tse-Sheng Nan, Risto Vuorio, Wei Hung, Hung-Yen Wu, Shao-Hua Sun, Ping-Chun Hsieh,
- Abstract要約: 行動制約下での政策学習は、様々なロボット制御や資源配分アプリケーションにおいて、安全な行動を保証する上で中心的な役割を果たす。
本稿では,行動制約付き模倣者がより広い行動空間を持つ実証的専門家から学習することを目的とした,行動制約付き模倣学習(ACIL)と呼ばれる新たな課題について検討する。
我々は、このミスマッチをテキストトラジェクトリアライメント(textittrajectory alignment)を通じて解決し、従来の専門家によるデモンストレーションを、アクション制約に固執しながら、同様の状態軌跡に従うサロゲートデータセットに置き換えるDTWILを提案する。
- 参考スコア(独自算出の注目度): 12.316546911223263
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Policy learning under action constraints plays a central role in ensuring safe behaviors in various robot control and resource allocation applications. In this paper, we study a new problem setting termed Action-Constrained Imitation Learning (ACIL), where an action-constrained imitator aims to learn from a demonstrative expert with larger action space. The fundamental challenge of ACIL lies in the unavoidable mismatch of occupancy measure between the expert and the imitator caused by the action constraints. We tackle this mismatch through \textit{trajectory alignment} and propose DTWIL, which replaces the original expert demonstrations with a surrogate dataset that follows similar state trajectories while adhering to the action constraints. Specifically, we recast trajectory alignment as a planning problem and solve it via Model Predictive Control, which aligns the surrogate trajectories with the expert trajectories based on the Dynamic Time Warping (DTW) distance. Through extensive experiments, we demonstrate that learning from the dataset generated by DTWIL significantly enhances performance across multiple robot control tasks and outperforms various benchmark imitation learning algorithms in terms of sample efficiency. Our code is publicly available at https://github.com/NYCU-RL-Bandits-Lab/ACRL-Baselines.
- Abstract(参考訳): 行動制約下での政策学習は、様々なロボット制御や資源配分アプリケーションにおいて、安全な行動を保証する上で中心的な役割を果たす。
本稿では,行動制約付き模倣者がより広い行動空間を持つ実証的専門家から学習することを目的とした,行動制約付き模倣学習(ACIL)と呼ばれる新たな課題について検討する。
ACILの根本的な課題は、専門家と行動制約によって引き起こされた模倣者との間の占有度測定の避けられないミスマッチにある。
我々は、このミスマッチをtextit{trajectory alignment} を通じて解決し、DTWIL を提案する。
具体的には、軌道のアライメントを計画上の問題として再キャストし、それをモデル予測制御により解決する。
DTWILが生成したデータセットからの学習により,複数のロボット制御タスクにおける性能が著しく向上し,サンプル効率の点で様々なベンチマーク模倣学習アルゴリズムよりも優れていることを示す。
私たちのコードはhttps://github.com/NYCU-RL-Bandits-Lab/ACRL-Baselines.comで公開されています。
関連論文リスト
- Leveraging Constraint Violation Signals For Action-Constrained Reinforcement Learning [13.332006760984122]
ACRL(Action-Constrained Reinforcement Learning)は、ポリシーネットワークの後にプロジェクション層を用いて行動を修正する。
近年,潜在変数と実行可能行動の異なるマッピングを学習するために,生成モデルを訓練する手法が提案されている。
論文 参考訳(メタデータ) (2025-02-08T12:58:26Z) - Learning Soft Driving Constraints from Vectorized Scene Embeddings while Imitating Expert Trajectories [16.666811573117613]
運動計画の第一の目的は、車両の安全で効率的な軌道を生成することである。
伝統的に、運動計画モデルは、人間の専門家の行動を模倣するために模倣学習を用いて訓練される。
本研究では,制約学習を模倣学習に統合する手法を提案する。
論文 参考訳(メタデータ) (2024-12-07T18:29:28Z) - Coarse-to-fine Q-Network with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する,新しい値に基づく強化学習アルゴリズムを提案する。
実験により、CQN-ASは、様々なスパース逆ヒューマノイド制御およびテーブルトップ操作タスクにおいて、いくつかのベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2024-11-19T01:23:52Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Benchmarking Actor-Critic Deep Reinforcement Learning Algorithms for
Robotics Control with Action Constraints [9.293472255463454]
本研究では,行動制約付き強化学習(RL)アルゴリズムの評価のためのベンチマークを提案する。
複数のロボット制御環境にまたがる既存のアルゴリズムとその新しい変種を評価する。
論文 参考訳(メタデータ) (2023-04-18T05:45:09Z) - Re-Evaluating LiDAR Scene Flow for Autonomous Driving [80.37947791534985]
自己教師型LiDARシーンフローの一般的なベンチマークは、動的動き、非現実的な対応、非現実的なサンプリングパターンの非現実的な速度を持つ。
実世界のデータセットのスイート上で,トップメソッドのスイートを評価する。
学習に重点を置いているにもかかわらず、ほとんどのパフォーマンス向上は前処理と後処理のステップによって引き起こされる。
論文 参考訳(メタデータ) (2023-04-04T22:45:50Z) - Let Offline RL Flow: Training Conservative Agents in the Latent Space of
Normalizing Flows [58.762959061522736]
オフライン強化学習は、追加の環境相互作用なしに、事前に記録された、固定されたデータセット上でポリシーをトレーニングすることを目的としている。
我々は、最近、潜在行動空間における学習ポリシーを基礎として、生成モデルの構築に正規化フローの特別な形式を用いる。
提案手法が最近提案したアルゴリズムより優れていることを示すため,様々な移動タスクとナビゲーションタスクについて評価を行った。
論文 参考訳(メタデータ) (2022-11-20T21:57:10Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。