論文の概要: Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy
- arxiv url: http://arxiv.org/abs/2503.19757v1
- Date: Tue, 25 Mar 2025 15:19:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:54:00.415669
- Title: Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy
- Title(参考訳): Dita:ジェネリストビジョンランゲージ・アクション・ポリシーのためのスケーリング拡散変換器
- Authors: Zhi Hou, Tianyi Zhang, Yuwen Xiong, Haonan Duan, Hengjun Pu, Ronglei Tong, Chengyang Zhao, Xizhou Zhu, Yu Qiao, Jifeng Dai, Yuntao Chen,
- Abstract要約: 本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。
Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。
Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
- 参考スコア(独自算出の注目度): 56.424032454461695
- License:
- Abstract: While recent vision-language-action models trained on diverse robot datasets exhibit promising generalization capabilities with limited in-domain data, their reliance on compact action heads to predict discretized or continuous actions constrains adaptability to heterogeneous action spaces. We present Dita, a scalable framework that leverages Transformer architectures to directly denoise continuous action sequences through a unified multimodal diffusion process. Departing from prior methods that condition denoising on fused embeddings via shallow networks, Dita employs in-context conditioning -- enabling fine-grained alignment between denoised actions and raw visual tokens from historical observations. This design explicitly models action deltas and environmental nuances. By scaling the diffusion action denoiser alongside the Transformer's scalability, Dita effectively integrates cross-embodiment datasets across diverse camera perspectives, observation scenes, tasks, and action spaces. Such synergy enhances robustness against various variances and facilitates the successful execution of long-horizon tasks. Evaluations across extensive benchmarks demonstrate state-of-the-art or comparative performance in simulation. Notably, Dita achieves robust real-world adaptation to environmental variances and complex long-horizon tasks through 10-shot finetuning, using only third-person camera inputs. The architecture establishes a versatile, lightweight and open-source baseline for generalist robot policy learning. Project Page: https://robodita.github.io.
- Abstract(参考訳): 近年、多様なロボットデータセットに基づいてトレーニングされた視覚言語アクションモデルは、ドメイン内の限られたデータによる有望な一般化能力を示す一方で、離散化や連続的なアクションを予測するためのコンパクトなアクションヘッドへの依存は、不均一なアクション空間への適応性を制約している。
我々は、Transformerアーキテクチャを活用して、統合マルチモーダル拡散プロセスを通じて連続的なアクションシーケンスを直接識別するスケーラブルなフレームワークであるDitaを提案する。
Ditaは、浅いネットワークを介して融合した埋め込みを条件付けする以前の方法とは別に、コンテキスト内条件付け(context conditioning)を採用している。
このデザインは、アクションデルタと環境ニュアンスを明示的にモデル化する。
Transformerのスケーラビリティと並行して、拡散アクションデノイザをスケールすることにより、Ditaは、さまざまなカメラ視点、観察シーン、タスク、アクションスペースをまたいだクロスボデーメントデータセットを効果的に統合する。
このようなシナジーは様々な分散に対する堅牢性を高め、長い水平タスクの実行を成功させる。
広範囲なベンチマークによる評価は、シミュレーションにおける最先端または比較性能を示している。
特に、Ditaは3人称カメラ入力のみを使用して、10ショットのファインタニングによって環境変動や複雑な長距離タスクへの堅牢な現実世界適応を実現している。
このアーキテクチャは、汎用的で軽量でオープンソースの、汎用的なロボットポリシー学習のベースラインを確立する。
プロジェクトページ: https://robodita.github.io
関連論文リスト
- ManipGPT: Is Affordance Segmentation by Large Vision Models Enough for Articulated Object Manipulation? [17.356760351203715]
本稿では,調音対象の最適相互作用領域を予測するためのフレームワークであるManipGPTを紹介する。
我々は、シミュレートされた9.9kの画像と実際の画像のデータセットを作成し、シミュレートとリアルのギャップを埋めた。
我々は,ロボット操作のシナリオに対して,モデルのコンテキスト内セグメンテーション機能を適用することにより,部分レベルの割当セグメンテーションを大幅に改善した。
論文 参考訳(メタデータ) (2024-12-13T11:22:01Z) - LaVin-DiT: Large Vision Diffusion Transformer [99.98106406059333]
LaVin-DiTは、20以上のコンピュータビジョンタスクを生成フレームワークで扱うために設計された、スケーラブルで統一された基盤モデルである。
視覚タスクの生成性能を最適化するための重要なイノベーションを紹介する。
このモデルは0.1Bから3.4Bのパラメータに拡張され、様々な視覚タスクにまたがる相当なスケーラビリティと最先端の性能を示す。
論文 参考訳(メタデータ) (2024-11-18T12:05:27Z) - Diffusion Transformer Policy [48.50988753948537]
本稿では,拡散変圧器ポリシー(Diffusion Transformer Policy)と呼ばれる多モード拡散変圧器を提案し,連続的なエンドエフェクタ動作をモデル化する。
トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文 参考訳(メタデータ) (2024-10-21T12:43:54Z) - Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly-lexically) で合成され,VLM(Vision Language Models) をフリーズしたパッチワイド特徴抽出器として利用するフレームワークである。
本研究では,本手法が4段階のフライ・トゥ・ターゲットタスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation [62.58480650443393]
Segment Anything (SAM) は、一般化可能なシーン理解とシーケンス模倣のための視覚境界モデルである。
我々は,単一パスにおけるアクションシーケンスの予測を可能にする,新しいマルチチャネルヒートマップを開発した。
論文 参考訳(メタデータ) (2024-05-30T00:32:51Z) - SGDViT: Saliency-Guided Dynamic Vision Transformer for UAV Tracking [12.447854608181833]
本研究は、UAV追跡のための新しいサリエンシ誘導動的視覚変換器(SGDViT)を提案する。
提案手法は,クロスコリレーション操作を洗練させるために,タスク固有の新たなオブジェクト・サリエンシ・マイニング・ネットワークを設計する。
軽量な塩分フィルタリング変換器は、さらに塩分情報を洗練し、外観情報に焦点を当てる。
論文 参考訳(メタデータ) (2023-03-08T05:01:00Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。