論文の概要: Ada3Drift: Adaptive Training-Time Drifting for One-Step 3D Visuomotor Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2603.11984v1
- Date: Thu, 12 Mar 2026 14:36:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.143739
- Title: Ada3Drift: Adaptive Training-Time Drifting for One-Step 3D Visuomotor Robotic Manipulation
- Title(参考訳): Ada3Drift:ワンステップ3Dロボットマニピュレーションのための適応訓練時間ドリフト
- Authors: Chongyang Xu, Yixian Zou, Ziliang Feng, Fanman Meng, Shuaicheng Liu,
- Abstract要約: 拡散に基づくビジュモータポリシーは反復的認知を通じて多モーダルな動作分布をキャプチャするが、その高い推論遅延はリアルタイムロボット制御を制限する。
Ada3Driftは,専門家のデモモードに対して予測された行動を引き付ける訓練時間ドリフト場を学習する。
Ada3Driftは、拡散ベースの代替よりも10倍の関数評価を必要としながら、最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 53.750389076941396
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion-based visuomotor policies effectively capture multimodal action distributions through iterative denoising, but their high inference latency limits real-time robotic control. Recent flow matching and consistency-based methods achieve single-step generation, yet sacrifice the ability to preserve distinct action modes, collapsing multimodal behaviors into averaged, often physically infeasible trajectories. We observe that the compute budget asymmetry in robotics (offline training vs.\ real-time inference) naturally motivates recovering this multimodal fidelity by shifting iterative refinement from inference time to training time. Building on this insight, we propose Ada3Drift, which learns a training-time drifting field that attracts predicted actions toward expert demonstration modes while repelling them from other generated samples, enabling high-fidelity single-step generation (1 NFE) from 3D point cloud observations. To handle the few-shot robotic regime, Ada3Drift further introduces a sigmoid-scheduled loss transition from coarse distribution learning to mode-sharpening refinement, and multi-scale field aggregation that captures action modes at varying spatial granularities. Experiments on three simulation benchmarks (Adroit, Meta-World, and RoboTwin) and real-world robotic manipulation tasks demonstrate that Ada3Drift achieves state-of-the-art performance while requiring $10\times$ fewer function evaluations than diffusion-based alternatives.
- Abstract(参考訳): 拡散に基づくビジュモータポリシは,反復的復調によって効果的にマルチモーダルな動作分布をキャプチャするが,高い推論遅延はリアルタイムロボット制御を制限する。
近年のフローマッチングと整合性に基づく手法は単一ステップの生成を実現するが、異なる動作モードを維持する能力は犠牲となり、多モードの動作は平均化され、しばしば物理的に実現不可能な軌道に崩壊する。
ロボット工学における計算予算の非対称性(オフライントレーニング vs。
\ Real-time Inference) 推論時間からトレーニング時間に反復的洗練をシフトすることで、このマルチモーダルフィデリティを自然に回復させる。
この知見に基づいて,Ada3Driftを提案する。Ada3Driftは,3次元点雲観測から高忠実度単一ステップ生成(1 NFE)を可能にするとともに,専門家による実証モードに向けて予測動作を誘導する訓練時間ドリフト場を学習する。
数発のロボットシステムを扱うために、Ada3Driftはさらに、粗い分布学習からモード共有化へのシグマノイドスケジュールの損失遷移を導入し、様々な空間的粒度のアクションモードをキャプチャするマルチスケールのフィールドアグリゲーションを導入した。
3つのシミュレーションベンチマーク(Adroit、Meta-World、RoboTwin)と実世界のロボット操作タスクの実験は、Ada3Driftが最先端のパフォーマンスを達成し、拡散ベースの代替よりも10\times$少ない関数評価を必要とすることを示した。
関連論文リスト
- Obstacle Avoidance using Dynamic Movement Primitives and Reinforcement Learning [36.09105994195904]
本研究は, 1つの人工的な実験からスムーズで, ほぼ最適な衝突のない3次元カルト軌道を高速に生成する手法を提案する。
デモは動的運動プリミティブ(DMP)として符号化され、ポリシーベースの強化学習を用いて反復的に再構成される。
この手法はシミュレーションと実ロボット実験で検証され、計算と実行時間の点でRTT-Connectベースラインを上回っている。
論文 参考訳(メタデータ) (2025-10-10T10:51:42Z) - Joint Flow Trajectory Optimization For Feasible Robot Motion Generation from Video Demonstrations [8.133207162076877]
本稿では,LfD(Learning-from-Demonstration)パラダイムに基づくポーズ生成とオブジェクトの軌道模倣を把握するためのフレームワークを提案する。
人間の手の動きを直接模倣するのではなく,実演を対象中心のガイドとして扱う。
我々は,様々な実世界の操作タスクにおけるシミュレーションと実世界の実験の両方において,我々のアプローチを検証する。
論文 参考訳(メタデータ) (2025-09-25T03:11:07Z) - Zero-shot 3D-Aware Trajectory-Guided image-to-video generation via Test-Time Training [27.251232052868033]
Trajectory-Guided Image-to-Video (I2V) 生成は、ユーザが指定した動画を合成することを目的としている。
Zo3Tは軌道制御されたI2V生成における3次元リアリズムと運動精度を著しく向上させる。
論文 参考訳(メタデータ) (2025-09-08T14:21:45Z) - 3D Multi-Object Tracking with Semi-Supervised GRU-Kalman Filter [6.13623925528906]
3D Multi-Object Tracking (MOT)は、自律運転やロボットセンシングのようなインテリジェントなシステムに不可欠である。
本稿では,学習可能なカルマンフィルタを移動モジュールに導入するGRUベースのMOT法を提案する。
このアプローチは、データ駆動学習を通じてオブジェクトの動き特性を学習することができ、手動モデル設計やモデルエラーを回避することができる。
論文 参考訳(メタデータ) (2024-11-13T08:34:07Z) - RoHM: Robust Human Motion Reconstruction via Diffusion [58.63706638272891]
RoHMは、モノクロRGB(-D)ビデオから頑健な3次元人間の動きを復元するためのアプローチである。
ノイズと閉鎖された入力データに条件付けし、一貫した大域座標で完全な可塑性運動を再構成した。
本手法は,テスト時に高速でありながら,定性的かつ定量的に最先端の手法より優れる。
論文 参考訳(メタデータ) (2024-01-16T18:57:50Z) - Value function estimation using conditional diffusion models for control [62.27184818047923]
拡散値関数(DVF)と呼ばれる単純なアルゴリズムを提案する。
拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶ。
本稿では,DVFを用いて複数のコントローラの状態を効率よく把握する方法を示す。
論文 参考訳(メタデータ) (2023-06-09T18:40:55Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z) - Learning to Shift Attention for Motion Generation [55.61994201686024]
ロボット学習を用いた動作生成の課題の1つは、人間のデモが1つのタスククエリに対して複数のモードを持つ分布に従うことである。
以前のアプローチでは、すべてのモードをキャプチャできなかったり、デモの平均モードを取得できないため、無効なトラジェクトリを生成する傾向があった。
この問題を克服する外挿能力を有するモーション生成モデルを提案する。
論文 参考訳(メタデータ) (2021-02-24T09:07:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。