論文の概要: Diffusion Transformer Policy
- arxiv url: http://arxiv.org/abs/2410.15959v1
- Date: Mon, 21 Oct 2024 12:43:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:16:48.583278
- Title: Diffusion Transformer Policy
- Title(参考訳): 拡散変圧器政策
- Authors: Zhi Hou, Tianyi Zhang, Yuwen Xiong, Hengjun Pu, Chengyang Zhao, Ronglei Tong, Yu Qiao, Jifeng Dai, Yuntao Chen,
- Abstract要約: 多様なロボットデータに基づいて事前訓練された拡散トランスフォーマーポリシーは、異なる実施形態に一般化することができる。
提案手法は,Calvinの新規タスク設定において,1つの3次元カメラストリームのみを用いて,最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 48.50988753948537
- License:
- Abstract: Recent large visual-language action models pretrained on diverse robot datasets have demonstrated the potential for generalizing to new environments with a few in-domain data. However, those approaches usually predict discretized or continuous actions by a small action head, which limits the ability in handling diverse action spaces. In contrast, we model the continuous action with a large multi-modal diffusion transformer, dubbed as Diffusion Transformer Policy, in which we directly denoise action chunks by a large transformer model rather than a small action head. By leveraging the scaling capability of transformers, the proposed approach can effectively model continuous end-effector actions across large diverse robot datasets, and achieve better generalization performance. Extensive experiments demonstrate Diffusion Transformer Policy pretrained on diverse robot data can generalize to different embodiments, including simulation environments like Maniskill2 and Calvin, as well as the real-world Franka arm. Specifically, without bells and whistles, the proposed approach achieves state-of-the-art performance with only a single third-view camera stream in the Calvin novel task setting (ABC->D), improving the average number of tasks completed in a row of 5 to 3.6, and the pretraining stage significantly facilitates the success sequence length on the Calvin by over 1.2. The code will be publicly available.
- Abstract(参考訳): 多様なロボットデータセットで事前訓練された近年の大規模視覚言語アクションモデルでは、ドメイン内の少数のデータで新しい環境に一般化する可能性を実証している。
しかしながら、これらのアプローチは通常、小さなアクションヘッドによる離散化または連続的なアクションを予測し、多様なアクション空間を扱う能力を制限する。
対照的に、我々はDiffusion Transformer Policy(拡散変圧器ポリシー)と呼ばれる大規模なマルチモーダル拡散変圧器を用いて連続的な動作をモデル化する。
トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにまたがる継続的エンドエフェクタ動作を効果的にモデル化し、より優れた一般化性能を実現することができる。
さまざまなロボットデータに基づいて事前訓練された拡散トランスフォーマーポリシーは、Maniskill2やCalvinといったシミュレーション環境や、現実世界のフランカアームなど、さまざまな実施形態に一般化することができる。
具体的には,提案手法は,Calvinの新規タスク設定(ABC->D)において,1つの3次元カメラストリームのみを用いて最先端の性能を実現し,行数5~3.6の平均タスク数を改善するとともに,事前学習段階によってCalvin上での成功シーケンス長を1.2以上向上させる。
コードは公開されます。
関連論文リスト
- One-Step Diffusion Policy: Fast Visuomotor Policies via Diffusion Distillation [80.71541671907426]
OneStep Diffusion Policy (OneDP)は、事前訓練された拡散政策から知識を単一ステップのアクションジェネレータに蒸留する新しいアプローチである。
OneDPはロボット制御タスクの応答時間を著しく短縮する。
論文 参考訳(メタデータ) (2024-10-28T17:54:31Z) - SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation [62.58480650443393]
Segment Anything (SAM) は、一般化可能なシーン理解とシーケンス模倣のための視覚境界モデルである。
我々は,単一パスにおけるアクションシーケンスの予測を可能にする,新しいマルチチャネルヒートマップを開発した。
論文 参考訳(メタデータ) (2024-05-30T00:32:51Z) - Diffscaler: Enhancing the Generative Prowess of Diffusion Transformers [34.611309081801345]
本稿では,1つの事前学習拡散変圧器モデルにより,複数のデータセットを高速にスケールできるようにすることに焦点をあてる。
DiffScalerは拡散モデルの効率的なスケーリング戦略であり、異なるタスクに適応するために最小限のパラメータを訓練する。
変換器に基づく拡散モデルは,より小さなデータセットに対して微調整を行いながら,CNNに基づく拡散モデルよりも大幅に優れていることがわかった。
論文 参考訳(メタデータ) (2024-04-15T17:55:43Z) - TransFusion: A Practical and Effective Transformer-based Diffusion Model
for 3D Human Motion Prediction [1.8923948104852863]
本研究では,3次元動作予測のための革新的で実用的な拡散モデルであるTransFusionを提案する。
我々のモデルは、浅い層と深い層の間の長いスキップ接続を持つバックボーンとしてTransformerを活用している。
クロスアテンションや適応層正規化のような余分なモジュールを利用する従来の拡散モデルとは対照的に、条件を含む全ての入力をトークンとして扱い、より軽量なモデルを作成する。
論文 参考訳(メタデータ) (2023-07-30T01:52:07Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Perceiver-Actor: A Multi-Task Transformer for Robotic Manipulation [52.94101901600948]
マルチタスク6-DoF操作のための言語条件付き行動閉鎖エージェントPerActを開発した。
PerActはPerceiver Transformerを用いて言語目標とRGB-Dボクセル観測を符号化し、"次の最良のボクセル動作を検出する"ことで識別された動作を出力する。
以上の結果から,PerActは多様なテーブルトップタスクにおいて,非構造化イメージ・ツー・アクション・エージェントと3D ConvNetベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2022-09-12T17:51:05Z) - ActFormer: A GAN Transformer Framework towards General
Action-Conditioned 3D Human Motion Generation [16.1094669439815]
一般動作条件付き3次元モーション生成のためのGANトランスフォーマフレームワークを提案する。
我々のアプローチは、GANトレーニングスキームの下で強力なActFormer(ActFormer)によって構成される。
ActFormerは、時間的相関とトランスフォーマーエンコーダとのヒューマンインタラクションを交互にモデル化することで、自然にマルチパーソン動作に拡張することができる。
論文 参考訳(メタデータ) (2022-03-15T07:50:12Z) - MUGL: Large Scale Multi Person Conditional Action Generation with
Locomotion [9.30315673109153]
MUGLは、大規模で多様な1対複数対多のポーズベースのアクションシーケンスをロコモーションで生成するための、新しいディープニューラルネットワークモデルである。
我々の制御可能なアプローチは、100以上のカテゴリで、アクションカテゴリによってカスタマイズ可能な可変長世代を可能にする。
論文 参考訳(メタデータ) (2021-10-21T20:11:53Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。