論文の概要: DiffusionAnything: End-to-End In-context Diffusion Learning for Unified Navigation and Pre-Grasp Motion
- arxiv url: http://arxiv.org/abs/2603.26322v1
- Date: Fri, 27 Mar 2026 11:40:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.47296
- Title: DiffusionAnything: End-to-End In-context Diffusion Learning for Unified Navigation and Pre-Grasp Motion
- Title(参考訳): DiffusionAnything:Unified NavigationとPre-Grasp MotionのためのEnd-to-End In-Context Diffusion Learning
- Authors: Iana Zhura, Yara Mahmoud, Jeffrin Sam, Hung Khang Nguyen, Didar Seyidov, Miguel Altamirano Cabrera, Dzmitry Tsetserukou,
- Abstract要約: 最近の視覚言語アクション(VLA)モデルは、視覚入力から直接アクションを推測するが、膨大な計算資源を必要とする。
本稿では,画像空間の拡散を統一的に行うことで,距離空間のナビゲーションとセンチメートルの操作を両立させる。
このモデルは、新規シーンへの堅牢なゼロショットの一般化を実現しつつ、オンボード展開に適している。
- 参考スコア(独自算出の注目度): 2.061143628317803
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Efficiently predicting motion plans directly from vision remains a fundamental challenge in robotics, where planning typically requires explicit goal specification and task-specific design. Recent vision-language-action (VLA) models infer actions directly from visual input but demand massive computational resources, extensive training data, and fail zero-shot in novel scenes. We present a unified image-space diffusion policy handling both meter-scale navigation and centimeter-scale manipulation via multi-scale feature modulation, with only 5 minutes of self-supervised data per task. Three key innovations drive the framework: (1) Multi-scale FiLM conditioning on task mode, depth scale, and spatial attention enables task-appropriate behavior in a single model; (2) trajectory-aligned depth prediction focuses metric 3D reasoning along generated waypoints; (3) self-supervised attention from AnyTraverse enables goal-directed inference without vision-language models and depth sensors. Operating purely from RGB input (2.0 GB memory, 10 Hz), the model achieves robust zero-shot generalization to novel scenes while remaining suitable for onboard deployment.
- Abstract(参考訳): 視覚から直接の運動計画の効率的な予測は、ロボット工学の基本的な課題であり、計画は通常、明確な目標仕様とタスク固有の設計を必要とする。
最近の視覚言語アクション(VLA)モデルは、視覚入力から直接アクションを推測するが、膨大な計算資源、広範な訓練データを必要とし、新規シーンではゼロショットを失敗させる。
本稿では,タスク毎に5分間の自己教師付きデータしか持たないマルチスケール特徴変調による,メートルスケールナビゲーションとセンチメートルスケール操作の両方を扱う統合画像空間拡散ポリシーを提案する。
1)タスクモードのマルチスケールFiLMコンディショニング,深度スケール,空間的アテンションの3つの重要な革新は,単一モデルにおけるタスクに適した行動を可能にすること,(2)軌道に沿った深度予測は,生成されたウェイポイントに沿った3次元推論に焦点を当てること,(3)AnyTraverseからの自己監督型アテンションは,視覚言語モデルや深度センサを使わずに,目標指向の推論を可能にすること,である。
RGB入力(2.0 GBメモリ、10 Hz)から純粋に操作することで、新しいシーンへの堅牢なゼロショットの一般化を実現し、オンボード展開に適している。
関連論文リスト
- ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning [31.000965640377128]
ABot-M0は、システマティックデータキュレーションパイプラインを構築するフレームワークである。
これは不均一な生データを統一的で効率的な表現にエンドツーエンドに変換することを可能にする。
ABot-M0はデュアルストリーム機構を通じてモジュール認識をサポートする。
論文 参考訳(メタデータ) (2026-02-11T16:47:01Z) - AugVLA-3D: Depth-Driven Feature Augmentation for Vision-Language-Action Models [42.57469056850227]
VLA(Vision-Language-Action)モデルは最近、ロボットの知覚と制御において顕著な進歩を遂げている。
深度推定をVLAモデルに統合し,3次元特徴表現を充実させる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-11T09:57:32Z) - D3D-VLP: Dynamic 3D Vision-Language-Planning Model for Embodied Grounding and Navigation [66.7166217399105]
エージェントは、エンドツーエンドモデルには解釈可能性や明示的な3D推論が欠けているという、重要なジレンマに直面します。
1) 計画,グラウンド,ナビゲーション,質問応答を単一の3D-VLMパイプラインとCoTパイプラインで統一する動的3Dチェーン(3D CoT) ; 2) フラグメンテッド・スーパービジョン(SLFS)戦略からのシナジスティック学習 マスク付き自己回帰損失を用いて,大規模かつ部分的に注釈付けされたハイブリッドデータから学習する。
論文 参考訳(メタデータ) (2025-12-14T09:53:15Z) - VLAD-Grasp: Zero-shot Grasp Detection via Vision-Language Models [11.02910353976723]
VLAD-Graspは視覚言語モデルを用いたゼロショットによる把握手法である。
従来の作業とは異なり、我々のアプローチはトレーニング不要であり、キュレートされた把握データセットに依存しない。
さらに,Franka Research 3ロボットを用いた新しい現実世界オブジェクトへのゼロショットの一般化を実証する。
論文 参考訳(メタデータ) (2025-11-08T01:47:40Z) - Evo-0: Vision-Language-Action Model with Implicit Spatial Understanding [11.222744122842023]
本稿では、3次元幾何学的特徴を暗黙的にVision-Language-Action(VLA)モデルに組み込むプラグイン・アンド・プレイ・モジュールを提案する。
提案手法は,様々なシナリオにおける最先端VLAモデルの性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-07-01T04:05:47Z) - LaVin-DiT: Large Vision Diffusion Transformer [99.98106406059333]
LaVin-DiTは、20以上のコンピュータビジョンタスクを生成フレームワークで扱うために設計された、スケーラブルで統一された基盤モデルである。
視覚タスクの生成性能を最適化するための重要なイノベーションを紹介する。
このモデルは0.1Bから3.4Bのパラメータに拡張され、様々な視覚タスクにまたがる相当なスケーラビリティと最先端の性能を示す。
論文 参考訳(メタデータ) (2024-11-18T12:05:27Z) - MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。
各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。
我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文 参考訳(メタデータ) (2024-10-04T18:00:07Z) - The Devil is in the Task: Exploiting Reciprocal Appearance-Localization
Features for Monocular 3D Object Detection [62.1185839286255]
低コストのモノクル3D物体検出は、自律運転において基本的な役割を果たす。
DFR-Netという動的特徴反射ネットワークを導入する。
我々は、KITTIテストセットの全ての単分子3D物体検出器の中で、第1位にランク付けする。
論文 参考訳(メタデータ) (2021-12-28T07:31:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。