論文の概要: Sample from What You See: Visuomotor Policy Learning via Diffusion Bridge with Observation-Embedded Stochastic Differential Equation
- arxiv url: http://arxiv.org/abs/2512.07212v1
- Date: Mon, 08 Dec 2025 06:47:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.744881
- Title: Sample from What You See: Visuomotor Policy Learning via Diffusion Bridge with Observation-Embedded Stochastic Differential Equation
- Title(参考訳): 観察組込み確率微分方程式を用いた拡散橋による視覚運動政策学習のサンプル
- Authors: Zhaoyang Liu, Mokai Pan, Zhongyi Wang, Kaizhen Zhu, Haotao Lu, Jingya Wang, Ye Shi,
- Abstract要約: 拡散モデルによる模倣学習は、多モーダルな動作分布を捉えることにより、ロボット制御が進歩する。
既存のアプローチでは、拡散過程自体のダイナミックスにそれらを組み込むのではなく、デノナイジングネットワークへの高レベルな条件付け入力として観測を扱います。
本稿では,拡散ブリッジの定式化を通じて微分方程式内に観測を埋め込む生成的ビズモータポリシであるブリッジポリシーを紹介する。
- 参考スコア(独自算出の注目度): 28.95872004551021
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Imitation learning with diffusion models has advanced robotic control by capturing multi-modal action distributions. However, existing approaches typically treat observations as high-level conditioning inputs to the denoising network, rather than integrating them into the stochastic dynamics of the diffusion process itself. As a result, sampling must begin from random Gaussian noise, weakening the coupling between perception and control and often yielding suboptimal performance. We introduce BridgePolicy, a generative visuomotor policy that explicitly embeds observations within the stochastic differential equation via a diffusion-bridge formulation. By constructing an observation-informed trajectory, BridgePolicy enables sampling to start from a rich, informative prior rather than random noise, substantially improving precision and reliability in control. A key challenge is that classical diffusion bridges connect distributions with matched dimensionality, whereas robotic observations are heterogeneous and multi-modal and do not naturally align with the action space. To address this, we design a multi-modal fusion module and a semantic aligner that unify visual and state inputs and align observation and action representations, making the bridge applicable to heterogeneous robot data. Extensive experiments across 52 simulation tasks on three benchmarks and five real-world tasks demonstrate that BridgePolicy consistently outperforms state-of-the-art generative policies.
- Abstract(参考訳): 拡散モデルを用いた模倣学習は,マルチモーダルな動作分布を捉えることにより,ロボット制御の高度化を実現している。
しかし、既存のアプローチでは、拡散過程自体の確率力学にそれらを統合するのではなく、一般的には観測を高レベルな条件付け入力としてデノナイジングネットワークに扱います。
その結果、サンプリングはランダムなガウスノイズから始まり、知覚と制御の結合を弱め、しばしば準最適性能を得る。
本稿では,拡散ブリッジの定式化を通じて確率微分方程式内に観測を明示的に埋め込む生成的ビズモータポリシーであるブリッジポリシーを紹介する。
オブザーバインフォームド・トラジェクトリを構築することで、BridgePolicyはランダムノイズよりも、リッチで情報的な事前からサンプリングを開始することができ、精度と制御の信頼性を大幅に向上させることができる。
鍵となる課題は、古典的な拡散ブリッジが分布と一致する次元を結びつけるのに対して、ロボット観測は異質で多モードであり、作用空間と自然に一致しないことである。
そこで我々は,視覚と状態の入力を統一し,観察と行動表現を整合させるマルチモーダル融合モジュールとセマンティック整合器を設計し,そのブリッジを異種ロボットデータに適用する。
3つのベンチマークと5つの実世界のタスクに関する52のシミュレーションタスクにわたる大規模な実験は、BridgePolicyが一貫して最先端の生成ポリシーを上回っていることを示している。
関連論文リスト
- Enhancing Adversarial Transferability by Balancing Exploration and Exploitation with Gradient-Guided Sampling [82.52485740425321]
アドリアックは、ディープニューラルネットワークの堅牢性にとって重要な課題である。
敵攻撃の伝達性は、爆発(最大攻撃能力)と探索(クロスモデル一般化の促進)のジレンマに直面している
論文 参考訳(メタデータ) (2025-11-01T05:43:47Z) - Acoustic Waveform Inversion with Image-to-Image Schrödinger Bridges [0.0]
我々は高解像度のサンプルを生成するための条件付き画像共有型Schr"odinger Bridge (c$textI2textSB$) フレームワークを導入する。
実験の結果,提案手法は条件付き拡散モデルの再実装よりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-06-18T10:55:26Z) - Consistent World Models via Foresight Diffusion [56.45012929930605]
我々は、一貫した拡散に基づく世界モデルを学習する上で重要なボトルネックは、最適下予測能力にあると主張している。
本稿では,拡散に基づく世界モデリングフレームワークであるForesight Diffusion(ForeDiff)を提案する。
論文 参考訳(メタデータ) (2025-05-22T10:01:59Z) - Generalized Interpolating Discrete Diffusion [65.74168524007484]
仮面拡散はその単純さと有効性のために一般的な選択である。
ノイズ発生過程の設計において、より柔軟性の高い離散拡散(GIDD)を補間する新しいファミリを一般化する。
GIDDの柔軟性をエクスプロイトし、マスクと均一ノイズを組み合わせたハイブリッドアプローチを探索し、サンプル品質を向上する。
論文 参考訳(メタデータ) (2025-03-06T14:30:55Z) - Controllable Motion Generation via Diffusion Modal Coupling [19.534234002173314]
マルチモーダルな事前分布を利用して拡散モデルの制御性を向上する新しいフレームワークを提案する。
Maze2D環境におけるデータセットとマルチタスク制御を用いた動作予測手法の評価を行った。
論文 参考訳(メタデータ) (2025-03-04T07:22:34Z) - DPBridge: Latent Diffusion Bridge for Dense Prediction [49.1574468325115]
DPBridgeは、密度予測タスクのための最初の潜伏拡散ブリッジフレームワークである。
提案手法は,異なるシナリオ下での有効性と能力の一般化を実証し,優れた性能を継続的に達成する。
論文 参考訳(メタデータ) (2024-12-29T15:50:34Z) - Diffusion Bridge Implicit Models [25.213664260896103]
分散ブリッジモデル(DDBM)は、2つの任意の対の分布を補間するための拡散モデルの強力な変種である。
我々は,拡散モデルで確立されたレシピに動機づけられた,余分な訓練を伴わないDDBMの高速サンプリングの第一歩を踏み出す。
我々は、高次数値解法を誘導する、新しい、単純で洞察に富んだ常微分方程式(ODE)を誘導する。
論文 参考訳(メタデータ) (2024-05-24T19:08:30Z) - CamoDiffusion: Camouflaged Object Detection via Conditional Diffusion
Models [72.93652777646233]
カモフラーゲ型物体検出(COD)は、カモフラーゲ型物体とその周囲の類似性が高いため、コンピュータビジョンにおいて難しい課題である。
本研究では,CODを拡散モデルを利用した条件付きマスク生成タスクとして扱う新しいパラダイムを提案する。
カモ拡散(CamoDiffusion)と呼ばれる本手法では,拡散モデルのデノナイズプロセスを用いてマスクの雑音を反復的に低減する。
論文 参考訳(メタデータ) (2023-05-29T07:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。