Fugu-MT 論文翻訳(概要): Prior Does Matter: Visual Navigation via Denoising Diffusion Bridge Models

論文の概要: Prior Does Matter: Visual Navigation via Denoising Diffusion Bridge Models

arxiv url: http://arxiv.org/abs/2504.10041v1
Date: Mon, 14 Apr 2025 09:42:35 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-22 22:30:56.354745
Title: Prior Does Matter: Visual Navigation via Denoising Diffusion Bridge Models
Title（参考訳）: 優先事項:拡散ブリッジモデルによる視覚ナビゲーション
Authors: Hao Ren, Yiming Zeng, Zetong Bi, Zhaoliang Wan, Junlong Huang, Hui Cheng,
Abstract要約: そこで我々は,NaviBridgerという名前の拡散ブリッジモデルを利用した新しいビジュアルナビゲーションフレームワークを提案する。このアプローチは、情報的事前行動から開始することで行動生成を可能にし、認知プロセスにおけるガイダンスと効率性を高める。シミュレーションおよび実世界の屋内シナリオおよび屋外シナリオにおける実験は、NaviBridgerがポリシー推論を加速し、ターゲットアクションシーケンスの生成においてベースラインを上回っていることを示す。
参考スコア（独自算出の注目度）: 17.339359071659494
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advancements in diffusion-based imitation learning, which show impressive performance in modeling multimodal distributions and training stability, have led to substantial progress in various robot learning tasks. In visual navigation, previous diffusion-based policies typically generate action sequences by initiating from denoising Gaussian noise. However, the target action distribution often diverges significantly from Gaussian noise, leading to redundant denoising steps and increased learning complexity. Additionally, the sparsity of effective action distributions makes it challenging for the policy to generate accurate actions without guidance. To address these issues, we propose a novel, unified visual navigation framework leveraging the denoising diffusion bridge models named NaviBridger. This approach enables action generation by initiating from any informative prior actions, enhancing guidance and efficiency in the denoising process. We explore how diffusion bridges can enhance imitation learning in visual navigation tasks and further examine three source policies for generating prior actions. Extensive experiments in both simulated and real-world indoor and outdoor scenarios demonstrate that NaviBridger accelerates policy inference and outperforms the baselines in generating target action sequences. Code is available at https://github.com/hren20/NaiviBridger.
Abstract（参考訳）: 拡散型模倣学習の最近の進歩は、多モーダル分布のモデリングと訓練安定性において顕著な性能を示し、様々なロボット学習タスクにおいて顕著な進歩をもたらした。視覚ナビゲーションでは、従来の拡散に基づくポリシーは、ガウスノイズの発声から開始することでアクションシーケンスを生成するのが一般的である。しかし、ターゲットの行動分布はガウスノイズから大きく分岐することが多く、冗長なデノナイズステップと学習の複雑さが増大する。さらに、効果的な行動分布の空間性は、ガイダンスなしで正確な行動を生成する政策を困難にしている。これらの問題に対処するために,NaviBridger という名前の拡散ブリッジモデルを利用した新しい統合ビジュアルナビゲーションフレームワークを提案する。このアプローチは、情報的事前行動から開始することで行動生成を可能にし、認知プロセスにおけるガイダンスと効率性を高める。本稿では,拡散ブリッジが視覚ナビゲーションタスクにおける模倣学習をいかに促進させるかを検討するとともに,先行動作を生成するための3つのソースポリシーについて検討する。シミュレーションおよび実世界の屋内および屋外シナリオにおける広範囲な実験は、NaviBridgerがポリシー推論を加速し、ターゲットアクションシーケンスの生成においてベースラインを上回っていることを示す。コードはhttps://github.com/hren20/NaiviBridger.comで入手できる。

関連論文リスト

Action-to-Action Flow Matching [25.301629044539325]
拡散に基づく政策は、最近、条件付き認知過程として行動予測を定式化することで、ロボット工学において顕著な成功を収めた。本稿では,A2A(Action-to-Action Flow Match)を提案する。 A2Aは単一の推論ステップ(0.56msレイテンシ)で高品質なアクション生成を可能にし、視覚摂動に優れた堅牢性を示し、目に見えない構成に一般化する。
論文参考訳（メタデータ） (2026-02-07T02:39:49Z)
Astra: General Interactive World Model with Autoregressive Denoising [73.6594791733982]
Astraはインタラクティブな汎用世界モデルであり、多様なシナリオのために現実世界の未来を生成する。本稿では,自己回帰型認知型アーキテクチャを提案し,時間的因果的注意を用いて過去の観測を集約する。 Astraはインタラクティブで一貫性があり、一般的な長期的なビデオ予測を実現し、様々な形式のインタラクションをサポートする。
論文参考訳（メタデータ） (2025-12-09T18:59:57Z)
Sample from What You See: Visuomotor Policy Learning via Diffusion Bridge with Observation-Embedded Stochastic Differential Equation [28.95872004551021]
拡散モデルによる模倣学習は、多モーダルな動作分布を捉えることにより、ロボット制御が進歩する。既存のアプローチでは、拡散過程自体のダイナミックスにそれらを組み込むのではなく、デノナイジングネットワークへの高レベルな条件付け入力として観測を扱います。本稿では,拡散ブリッジの定式化を通じて微分方程式内に観測を埋め込む生成的ビズモータポリシであるブリッジポリシーを紹介する。
論文参考訳（メタデータ） (2025-12-08T06:47:32Z)
FreeAction: Training-Free Techniques for Enhanced Fidelity of Trajectory-to-Video Generation [50.39748673817223]
本稿では,ロボットビデオ生成における明示的な動作パラメータを完全に活用する2つのトレーニング不要な推論時間手法を提案する。第一に、アクションスケールの分類器フリーガイダンスは、動作の大きさに比例して誘導強度を動的に調整し、運動強度に対する制御性を高める。第二に、アクションスケールノイズトランケーションは、初期サンプルノイズの分布を調整し、所望の運動力学とよりよく一致させる。
論文参考訳（メタデータ） (2025-09-29T03:30:40Z)
Dexplore: Scalable Neural Control for Dexterous Manipulation from Reference-Scoped Exploration [58.4036440289082]
ハンドオブジェクトモーションキャプチャ(MoCap)は、大規模でコンタクトに富んだデモと、器用なロボットスコープの約束を提供する。 Dexploreは、リポジトリとトラッキングを実行し、MoCapから直接ロボット制御ポリシーを学習する、統一された単一ループ最適化である。
論文参考訳（メタデータ） (2025-09-11T17:59:07Z)
InstaRevive: One-Step Image Enhancement via Dynamic Score Matching [66.97989469865828]
InstaReviveは、強力な生成能力を活用するためにスコアベースの拡散蒸留を利用する画像強調フレームワークである。私たちのフレームワークは、さまざまな課題やデータセットにまたがって、高品質で視覚的に魅力的な結果を提供します。
論文参考訳（メタデータ） (2025-04-22T01:19:53Z)
FlowLoss: Dynamic Flow-Conditioned Loss Strategy for Video Diffusion Models [9.469635938429647]
ビデオ拡散モデル(VDM)は高品質なビデオを生成することができるが、時間的に一貫した動きを生み出すのにしばしば苦労する。本研究では,生成した映像から抽出した流れ場を直接比較するFlowLossを提案する。本研究は,騒音条件付き生成モデルにモーションベース制御を組み込むための実用的な知見を提供する。
論文参考訳（メタデータ） (2025-04-20T08:22:29Z)
Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [56.424032454461695]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。 Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。 Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文参考訳（メタデータ） (2025-03-25T15:19:56Z)
COLSON: Controllable Learning-Based Social Navigation via Diffusion-Based Reinforcement Learning [0.7499722271664144]
歩行者交通を伴う動的環境における移動ロボットナビゲーションは、自律型モバイルサービスロボットの開発において重要な課題である。深い強化学習に基づく手法は、最適化能力によって従来のルールベースのアプローチよりも優れています。本研究では,拡散に基づく強化学習手法をソーシャルナビゲーションに適用し,その有効性を検証した。
論文参考訳（メタデータ） (2025-03-18T06:02:30Z)
NavigateDiff: Visual Predictors are Zero-Shot Navigation Assistants [24.689242976554482]
慣れ親しんだ環境をナビゲートすることは、家庭用ロボットにとって大きな課題となる。既存の強化学習手法は、直接新しい環境に移行することはできない。我々は、事前学習された基礎モデルの論理知識と一般化能力をゼロショットナビゲーションに転送しようと試みる。
論文参考訳（メタデータ） (2025-02-19T17:27:47Z)
Diffusion Transformer Policy [48.50988753948537]
本稿では,拡散変圧器ポリシー(Diffusion Transformer Policy)と呼ばれる多モード拡散変圧器を提案し,連続的なエンドエフェクタ動作をモデル化する。トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文参考訳（メタデータ） (2024-10-21T12:43:54Z)
Latent Action Priors for Locomotion with Deep Reinforcement Learning [42.642008092347986]
深層強化学習(DRL)は、ロボットが環境との相互作用を通じて複雑な行動を学ぶことを可能にする。本稿では,特にトルク制御に有用な移動学習のための帰納バイアスを提案する。エージェントは実演の報酬レベルに制限されず、転送タスクの性能は大幅に向上する。
論文参考訳（メタデータ） (2024-10-04T09:10:56Z)
ActionDiffusion: An Action-aware Diffusion Model for Procedure Planning in Instructional Videos [10.180115984765582]
ActionDiffusionは、講義ビデオにおけるプロシージャ計画のための新しい拡散モデルである。本手法は,行動間の時間的依存関係の学習と拡散過程における行動計画の認知を統一する。
論文参考訳（メタデータ） (2024-03-13T14:54:04Z)
Towards Deviation-Robust Agent Navigation via Perturbation-Aware Contrastive Learning [125.61772424068903]
視覚言語ナビゲーション(VLN)は、エージェントに与えられた言語命令に従って実際の3D環境をナビゲートするように要求する。本稿では,既存のVLNエージェントの一般化能力を高めるために,PROPER(Progressive Perturbation-aware Contrastive Learning)と呼ばれるモデルに依存しない学習パラダイムを提案する。
論文参考訳（メタデータ） (2024-03-09T02:34:13Z)
DiffTAD: Temporal Action Detection with Proposal Denoising Diffusion [137.8749239614528]
そこで我々は,時間的行動検出(TAD)の新しい定式化を提案し,拡散を抑えるDiffTADを提案する。入力されたランダムな時間的提案を考慮すれば、トリミングされていない長いビデオが与えられたアクションの提案を正確に得ることができる。
論文参考訳（メタデータ） (2023-03-27T00:40:52Z)
Adversarial Reinforced Instruction Attacker for Robust Vision-Language Navigation [145.84123197129298]
自然言語に基づくナビゲーションタスクでは,言語指導が重要な役割を担っている。より堅牢なナビゲータを訓練し、長い指導から重要な要素を動的に抽出する。具体的には,航法士が間違った目標に移動することを誤認することを学習する動的強化命令攻撃装置(DR-Attacker)を提案する。
論文参考訳（メタデータ） (2021-07-23T14:11:31Z)
Generative Adversarial Reward Learning for Generalized Behavior Tendency Inference [71.11416263370823]
ユーザの行動嗜好モデルのための生成的逆強化学習を提案する。我々のモデルは,差別的アクター批判ネットワークとWasserstein GANに基づいて,ユーザの行動から報酬を自動的に学習することができる。
論文参考訳（メタデータ） (2021-05-03T13:14:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。