論文の概要: Improving Diffusion Planners by Self-Supervised Action Gating with Energies
- arxiv url: http://arxiv.org/abs/2603.02650v1
- Date: Tue, 03 Mar 2026 06:36:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.668499
- Title: Improving Diffusion Planners by Self-Supervised Action Gating with Energies
- Title(参考訳): エネルギーを用いた自己監督行動ゲーティングによる拡散プランナの改良
- Authors: Yuan Lu, Dongqi Han, Yansen Wang, Dongsheng Li,
- Abstract要約: 遅延整合性信号を用いて動的に不整合プランをペナライズする自己教師行動ゲーティング(SAGE)を提案する。
SAGEは、オフライン状態シーケンスにJEPAエンコーダと、短地平線遷移のための動作条件付き潜在予測器をトレーニングする。
テスト時に、SAGEは各サンプル候補に潜伏予測誤差によって与えられるエネルギを割り当て、この実現可能性スコアと値推定を組み合わせて選択アクションを選択する。
- 参考スコア(独自算出の注目度): 31.430422680816907
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion planners are a strong approach for offline reinforcement learning, but they can fail when value-guided selection favours trajectories that score well yet are locally inconsistent with the environment dynamics, resulting in brittle execution. We propose Self-supervised Action Gating with Energies (SAGE), an inference-time re-ranking method that penalises dynamically inconsistent plans using a latent consistency signal. SAGE trains a Joint-Embedding Predictive Architecture (JEPA) encoder on offline state sequences and an action-conditioned latent predictor for short horizon transitions. At test time, SAGE assigns each sampled candidate an energy given by its latent prediction error and combines this feasibility score with value estimates to select actions. SAGE can integrate into existing diffusion planning pipelines that can sample trajectories and select actions via value scoring; it requires no environment rollouts and no policy re-training. Across locomotion, navigation, and manipulation benchmarks, SAGE improves the performance and robustness of diffusion planners.
- Abstract(参考訳): 拡散プランナーはオフラインの強化学習において強力なアプローチであるが、値誘導選択が良いスコアのトラジェクトリを好んだ場合に失敗し、環境力学と局所的に矛盾し、不安定な実行をもたらす。
遅延整合性信号を用いて動的に不整合性プランをペナルライズする推論時再ランク法である自己教師行動ゲーティング・ウィズ・エネルギス(SAGE)を提案する。
SAGEは、オフライン状態シーケンスにJEPAエンコーダと、短地平線遷移のための動作条件付き潜在予測器をトレーニングする。
テスト時に、SAGEは各サンプル候補に潜伏予測誤差によって与えられるエネルギを割り当て、この実現可能性スコアと値推定を組み合わせて選択アクションを選択する。
SAGEは既存の拡散計画パイプラインに統合することができ、トラジェクトリをサンプリングし、値スコアリングを通じてアクションを選択することができる。
移動、ナビゲーション、操作ベンチマーク全体にわたって、SAGEは拡散プランナーのパフォーマンスと堅牢性を改善している。
関連論文リスト
- TopoCurate:Modeling Interaction Topology for Tool-Use Agent Training [53.93696896939915]
訓練用ツール使用エージェントは一般的に、パスレート選択されたタスクに対して、軌道変更の成功と強化学習(RL)に依存している。
TopoCurateは,同一タスクから多段階的なロールアウトを統一的な意味的商トポロジに投影する対話型フレームワークである。
TopoCurateは最先端のベースラインに対して4.2%(SFT)と6.9%(RL)という一貫したゲインを達成している。
論文 参考訳(メタデータ) (2026-03-02T10:38:54Z) - Planning as Descent: Goal-Conditioned Latent Trajectory Synthesis in Learned Energy Landscapes [0.8703455323398351]
Planning as Descent (PaD)は、オフラインの目標条件強化学習のためのフレームワークである。
PaDは潜在軌道全体にわたってゴール条件エネルギー関数を学習し、低エネルギーを実現可能でゴール一貫性のある未来に割り当てる。
この結果から,軌道の評価と洗練の学習が,直接政策学習の強力な代替手段となることが示唆された。
論文 参考訳(メタデータ) (2025-12-19T17:49:13Z) - Model-Based Diffusion Sampling for Predictive Control in Offline Decision Making [48.998030470623384]
オフラインの意思決定は、さらなるインタラクションを伴わずに、固定データセットからの信頼性の高い振る舞いを必要とする。
i)タスク整列軌道を多様に生成するプランナー,(ii)システム力学との整合性を強制するダイナミクスモデル,(iii)タスク目標に整合した動作を選択するランサーモジュールからなる構成モデルに基づく拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-09T06:26:02Z) - Bayesian Active Inference for Intelligent UAV Anti-Jamming and Adaptive Trajectory Planning [5.620125209890186]
本稿では, 逆ジャミング条件下でのUAV動作のための階層的軌道計画手法を提案する。
このアプローチは、専門家が作成したデモと確率的生成モデルを組み合わせて、高レベルなシンボル計画、低レベルなモーションポリシー、無線信号フィードバックを符号化する。
配備中、UAVは妨害を予測し、ジャムマーをローカライズし、ジャムマーの位置を事前に知ることなくその軌道に適応するためのオンライン推論を行う。
論文 参考訳(メタデータ) (2025-12-05T13:38:52Z) - The Cognitive Bandwidth Bottleneck: Shifting Long-Horizon Agent from Planning with Actions to Planning with Schemas [56.62286434195321]
本稿では2つの異なる行動表現の有効性を体系的に研究する。
本稿では,その違いを質的に理解するための概念的枠組みとして,認知的帯域幅の観点を提案する。
より有能なPwSエージェントを構築するための実用的なガイドを提供する。
論文 参考訳(メタデータ) (2025-10-08T14:47:40Z) - TD-JEPA: Latent-predictive Representations for Zero-Shot Reinforcement Learning [63.73629127832652]
本稿では,TDに基づく潜在予測表現を教師なしRLに活用するTD-JEPAを紹介する。
TD-JEPAは、明示的な状態とタスクエンコーダ、ポリシー条件付きマルチステップ予測器、パラメータ化されたポリシーのセットを潜時空間で直接訓練する。
実証的には、TD-JEPAは13のデータセットにわたる移動、ナビゲーション、操作のタスクにおいて、最先端のベースラインをマッチまたは上回る。
論文 参考訳(メタデータ) (2025-10-01T10:21:18Z) - Predictive Planner for Autonomous Driving with Consistency Models [5.966385886363771]
軌道予測と計画は、自動運転車が動的環境下で安全かつ効率的に走行するために不可欠である。
近年の拡散型生成モデルはマルチエージェント軌道生成において有望であるが,その遅いサンプリングは高周波計画タスクには適さない。
我々は,エゴ車両の航法目標に基づいて,エゴと周辺エージェントの共同分布からサンプルを採取する予測プランナを構築するために,一貫性モデルを活用する。
論文 参考訳(メタデータ) (2025-02-12T00:26:01Z) - Resisting Stochastic Risks in Diffusion Planners with the Trajectory Aggregation Tree [20.855596726996712]
トラジェクトリー・アグリゲーション・ツリー(TAT)は、歴史的および現在のトラジェクトリーに基づく動的ツリーのような構造である。
TATは、拡散プランナーの元々のトレーニングやサンプリングパイプラインを変更することなく、デプロイできる。
以上の結果から,信頼できない軌道からのリスクに抵抗し,100ドル以上の作業で拡散プランナーの性能向上を保証し,試料品質に対する許容許容限界を示し,3倍以上の加速で計画が可能であることが示唆された。
論文 参考訳(メタデータ) (2024-05-28T06:57:22Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Active Inference and Behavior Trees for Reactive Action Planning and
Execution in Robotics [2.040132783511305]
本研究では,動的環境における動的行動計画と実行のための活性推論と行動木(BT)の組み合わせを提案する。
提案手法により、部分的に観測可能な初期状態を扱うことができ、予期せぬ事態に対する古典的なBTの堅牢性を向上させることができる。
論文 参考訳(メタデータ) (2020-11-19T10:24:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。