論文の概要: Self-Imitated Diffusion Policy for Efficient and Robust Visual Navigation
- arxiv url: http://arxiv.org/abs/2601.22965v1
- Date: Fri, 30 Jan 2026 13:27:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.035361
- Title: Self-Imitated Diffusion Policy for Efficient and Robust Visual Navigation
- Title(参考訳): 効率的かつロバストな視覚ナビゲーションのための自己免疫拡散政策
- Authors: Runhua Zhang, Junyi Hou, Changxu Cheng, Qiyi Chen, Tao Wang, Wuyue Zhao,
- Abstract要約: SIDP(Self-Imitated Diffusion Policy)は、自己からサンプリングされた一連の軌跡を選択的に模倣することによって、計画の改善を学ぶ新しいフレームワークである。
具体的には、SIDPは報酬誘導型自己刺激機構を導入し、政策が常に高品質な軌道を効率的に生成することを奨励する。
- 参考スコア(独自算出の注目度): 7.341858898582114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion policies (DP) have demonstrated significant potential in visual navigation by capturing diverse multi-modal trajectory distributions. However, standard imitation learning (IL), which most DP methods rely on for training, often inherits sub-optimality and redundancy from expert demonstrations, thereby necessitating a computationally intensive "generate-then-filter" pipeline that relies on auxiliary selectors during inference. To address these challenges, we propose Self-Imitated Diffusion Policy (SIDP), a novel framework that learns improved planning by selectively imitating a set of trajectories sampled from itself. Specifically, SIDP introduces a reward-guided self-imitation mechanism that encourages the policy to consistently produce high-quality trajectories efficiently, rather than outputs of inconsistent quality, thereby reducing reliance on extensive sampling and post-filtering. During training, we employ a reward-driven curriculum learning paradigm to mitigate inefficient data utility, and goal-agnostic exploration for trajectory augmentation to improve planning robustness. Extensive evaluations on a comprehensive simulation benchmark show that SIDP significantly outperforms previous methods, with real-world experiments confirming its effectiveness across multiple robotic platforms. On Jetson Orin Nano, SIDP delivers a 2.5$\times$ faster inference than the baseline NavDP, i.e., 110ms VS 273ms, enabling efficient real-time deployment.
- Abstract(参考訳): 拡散ポリシー (DP) は多様な多モード軌道分布を捉えることで視覚ナビゲーションに有意な可能性を証明している。
しかし、ほとんどのDP手法が訓練に頼っている標準模倣学習(IL)は、しばしば専門家によるデモンストレーションから準最適性と冗長性を継承し、推論中に補助的なセレクタに依存する計算的に集中的な「世代別フィルタ(generate-then-filter)」パイプラインを必要とする。
これらの課題に対処するため,我々は,自己免疫拡散政策(SIDP, Self-Imitated Diffusion Policy)を提案する。
具体的には、SIDPは、不整合な品質の出力ではなく、政策が一貫して高品質な軌道を効率よく生成することを奨励し、広範囲なサンプリングやポストフィルタへの依存を減らす、報酬誘導型自己イメージ機構を導入している。
トレーニング中に、非効率なデータユーティリティを緩和するために報酬駆動型カリキュラム学習パラダイムを使用し、計画ロバスト性を改善するために軌道拡張のための目標に依存しない探索を行う。
総合シミュレーションベンチマークによる広範囲な評価の結果、SIDPは従来の手法よりも大幅に優れており、実際の実験では複数のロボットプラットフォームでその有効性が確認されている。
Jetson Orin Nanoでは、SIDPはベースラインのNavDPよりも2.5$\times$高速な推論を提供する。
関連論文リスト
- Large Reward Models: Generalizable Online Robot Reward Generation with Vision-Language Models [19.819472980239826]
我々は最先端のVLMに基づく堅牢でスケーラブルな報酬モデルを開発する。
我々は、これらのVLM報酬を用いて、閉ループ方式で準最適動作を補正するモデルを導出する。
論文 参考訳(メタデータ) (2026-03-17T02:22:16Z) - Dynamics-Predictive Sampling for Active RL Finetuning of Large Reasoning Models [49.04912820721943]
強化学習(RL)ファインタニングは,大規模言語モデル(LLM)の推論能力を高める重要な手法となっている。
近年の進歩は、部分的に解決されたり、適度に難しい例にトレーニングを集中させるオンラインプロンプト選択手法の重要性を浮き彫りにしている。
本研究はDPS(Dynamics-Predictive Smpling)を提案する。DPS(Dynamics-Predictive Smpling)は,コストのかかるロールアウトに先立って,学習ダイナミクスを推定して情報的プロンプトを予測し,選択する。
論文 参考訳(メタデータ) (2026-03-11T15:31:14Z) - Towards High Data Efficiency in Reinforcement Learning with Verifiable Reward [54.708851958671794]
オフラインとオンラインの両方のデータ選択のための最適化戦略を組み合わせた,データ効率のよいポリシ最適化パイプラインを提案する。
オフラインフェーズでは、多様性、影響、適切な難易度に基づいて、トレーニングサンプルの高品質なサブセットをキュレートする。
オンラインRLVRトレーニングにおいて、探索可能性の低いサンプルを動的にフィルタリングするサンプルレベルの探索性指標を導入する。
論文 参考訳(メタデータ) (2025-09-01T10:04:20Z) - Fake it till You Make it: Reward Modeling as Discriminative Prediction [49.31309674007382]
GAN-RMは、手動の嗜好アノテーションと明示的な品質次元工学を排除した効率的な報酬モデリングフレームワークである。
提案手法は,少数の対象サンプルを識別し,報酬モデルを訓練する。
実験では、GAN-RMが複数の主要なアプリケーションにまたがって有効であることを実証した。
論文 参考訳(メタデータ) (2025-06-16T17:59:40Z) - Prior-Guided Diffusion Planning for Offline Reinforcement Learning [5.819784482811376]
Prior Guidance(PG)は、行動閉ざされた拡散モデルに先立って標準ガウスを置き換えた新しいサンプリングフレームワークである。
我々は,潜時空間における行動規則化を適用した効率的なトレーニング戦略を提案し,PGが多種多種多種多種多種多種多様オフラインRLベンチマークにおいて最先端拡散ポリシーやプランナーより優れていることを実証的に示す。
論文 参考訳(メタデータ) (2025-05-16T05:39:02Z) - HUWSOD: Holistic Self-training for Unified Weakly Supervised Object Detection [66.42229859018775]
我々は,HUWSOD(HuWSOD)と呼ばれる,統一・高容量弱教師付きオブジェクト検出(WSOD)ネットワークを導入する。
HUWSODには、自己管理された提案生成器と、従来のオブジェクト提案を置き換えるために、マルチレートで再構成されたピラミッドを備えたオートエンコーダ提案生成器が組み込まれている。
提案手法は,よく設計されたオフラインオブジェクト提案と大きく異なるが,WSOD訓練には有効であることを示す。
論文 参考訳(メタデータ) (2024-06-27T17:59:49Z) - Confidence-Controlled Exploration: Efficient Sparse-Reward Policy Learning for Robot Navigation [72.24964965882783]
強化学習(RL)はロボットナビゲーションにおいて有望なアプローチであり、ロボットは試行錯誤を通じて学習することができる。
現実世界のロボットタスクは、しばしばまばらな報酬に悩まされ、非効率な探索と準最適政策に繋がる。
本稿では,RLに基づくロボットナビゲーションにおいて,報酬関数を変更せずにサンプル効率を向上させる新しい手法であるConfidence-Controlled Exploration (CCE)を紹介する。
論文 参考訳(メタデータ) (2023-06-09T18:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。