論文の概要: Pixel Motion Diffusion is What We Need for Robot Control
- arxiv url: http://arxiv.org/abs/2509.22652v1
- Date: Fri, 26 Sep 2025 17:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.646919
- Title: Pixel Motion Diffusion is What We Need for Robot Control
- Title(参考訳): ロボット制御に必要なのは、カメラモーションの拡散
- Authors: E-Ro Nguyen, Yichi Zhang, Kanchana Ranasinghe, Xiang Li, Michael S. Ryoo,
- Abstract要約: DAWNは言語条件のロボット操作のための統合拡散ベースのフレームワークである。
高レベルの動き意図と低レベルのロボット動作を、構造化されたピクセルの動き表現を介してブリッジする。
DAWNは、挑戦的なCALVINベンチマークで最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 38.925028601732116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present DAWN (Diffusion is All We Need for robot control), a unified diffusion-based framework for language-conditioned robotic manipulation that bridges high-level motion intent and low-level robot action via structured pixel motion representation. In DAWN, both the high-level and low-level controllers are modeled as diffusion processes, yielding a fully trainable, end-to-end system with interpretable intermediate motion abstractions. DAWN achieves state-of-the-art results on the challenging CALVIN benchmark, demonstrating strong multi-task performance, and further validates its effectiveness on MetaWorld. Despite the substantial domain gap between simulation and reality and limited real-world data, we demonstrate reliable real-world transfer with only minimal finetuning, illustrating the practical viability of diffusion-based motion abstractions for robotic control. Our results show the effectiveness of combining diffusion modeling with motion-centric representations as a strong baseline for scalable and robust robot learning. Project page: https://nero1342.github.io/DAWN/
- Abstract(参考訳): DAWN(Diffusion is All We Need for Robot Control, Diffusion is All We Need for Robot Control)は,高レベルな動作意図と低レベルなロボット動作を,構造化されたピクセルの動き表現を介してブリッジする言語条件のロボット操作のための統合拡散ベースのフレームワークである。
DAWNでは、高レベルと低レベルの両方のコントローラが拡散過程としてモデル化され、解釈可能な中間動作抽象化を備えた完全にトレーニング可能なエンドツーエンドシステムが得られる。
DAWNは、挑戦的なCALVINベンチマークの最先端結果を達成し、強力なマルチタスク性能を示し、MetaWorldにおけるその有効性をさらに検証する。
シミュレーションと現実と限られた実世界のデータの間にはかなりの領域差があるにもかかわらず、最小限の微調整しか行わず、信頼性の高い実世界の移動を実証し、ロボット制御のための拡散に基づく運動抽象化の実用性を示す。
本研究は,スケーラブルで堅牢なロボット学習のための強力なベースラインとして,拡散モデルと動き中心表現を組み合わせることの有効性を示す。
プロジェクトページ: https://nero1342.github.io/DAWN/
関連論文リスト
- Dexplore: Scalable Neural Control for Dexterous Manipulation from Reference-Scoped Exploration [58.4036440289082]
ハンドオブジェクトモーションキャプチャ(MoCap)は、大規模でコンタクトに富んだデモと、器用なロボットスコープの約束を提供する。
Dexploreは、リポジトリとトラッキングを実行し、MoCapから直接ロボット制御ポリシーを学習する、統一された単一ループ最適化である。
論文 参考訳(メタデータ) (2025-09-11T17:59:07Z) - Physical Autoregressive Model for Robotic Manipulation without Action Pretraining [65.8971623698511]
我々は、自己回帰ビデオ生成モデルを構築し、物理自己回帰モデル(PAR)を提案する。
PARは、アクション事前トレーニングを必要とせず、物理力学を理解するために、ビデオ事前トレーニングに埋め込まれた世界の知識を活用する。
ManiSkillベンチマークの実験は、PARがPushCubeタスクで100%の成功率を達成したことを示している。
論文 参考訳(メタデータ) (2025-08-13T13:54:51Z) - ViSA-Flow: Accelerating Robot Skill Learning via Large-Scale Video Semantic Action Flow [4.2766838326810355]
教師なし大規模ビデオデータから事前ラベル付き表現を学習するフレームワークであるViSA-Flowを提案する。
まず、大規模人-物間相互作用ビデオデータから、生成訓練された意味行動の流れを自動的に抽出する。
第2に、この前者は、同じセマンティック抽象化パイプラインで処理された小さなロボットのデモセットを微調整することで、ターゲットロボットに効率的に適応する。
論文 参考訳(メタデータ) (2025-05-02T14:03:06Z) - FAST: Efficient Action Tokenization for Vision-Language-Action Models [98.15494168962563]
離散コサイン変換に基づくロボット動作のための圧縮に基づく新しいトークン化手法を提案する。
FASTをベースとしたFAST+は,100万個のリアルロボットアクショントラジェクトリに基づいて訓練されたユニバーサルロボットアクショントークンである。
論文 参考訳(メタデータ) (2025-01-16T18:57:04Z) - RobotDiffuse: Motion Planning for Redundant Manipulator based on Diffusion Model [13.110235244912474]
冗長マニピュレータは、キネマティック性能と汎用性の向上を提供する。
これらのマニピュレータの動作計画は、DOFの増加と複雑な動的環境のために困難である。
本稿では,冗長マニピュレータにおける運動計画のための拡散モデルに基づくロボットディフューズを提案する。
論文 参考訳(メタデータ) (2024-12-27T07:34:54Z) - ManiCM: Real-time 3D Diffusion Policy via Consistency Model for Robotic Manipulation [38.08606358379297]
拡散モデルは自然画像から運動軌道への複雑な分布を生成するのに有効であることが確認されている。
近年の手法では3次元ロボット操作作業において顕著な性能を示すが、複数のデノナイジングステップにより実行時の非効率が悪化している。
拡散過程に一貫性の制約を課すリアルタイムロボット操作モデルManiCMを提案する。
論文 参考訳(メタデータ) (2024-06-03T17:59:23Z) - DiffGen: Robot Demonstration Generation via Differentiable Physics Simulation, Differentiable Rendering, and Vision-Language Model [72.66465487508556]
DiffGenは、微分可能な物理シミュレーション、微分可能なレンダリング、ビジョン言語モデルを統合する新しいフレームワークである。
言語命令の埋め込みとシミュレートされた観察の埋め込みとの距離を最小化することにより、現実的なロボットデモを生成することができる。
実験によると、DiffGenを使えば、人間の努力やトレーニング時間を最小限に抑えて、ロボットデータを効率よく、効果的に生成できる。
論文 参考訳(メタデータ) (2024-05-12T15:38:17Z) - Interactive Character Control with Auto-Regressive Motion Diffusion Models [18.727066177880708]
リアルタイム動作合成のためのA-MDM(Auto-Regressive Motion Diffusion Model)を提案する。
我々の条件拡散モデルは初期ポーズを入力とし、前者のフレームに条件付けられた連続した動きフレームを自動回帰的に生成する。
本稿では,タスク指向サンプリング,インペインティング,階層的強化学習など,対話型制御をA-MDMに組み込む一連の手法を紹介する。
論文 参考訳(メタデータ) (2023-06-01T07:48:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。