論文の概要: Diffusion Transformer Policy
- arxiv url: http://arxiv.org/abs/2410.15959v1
- Date: Mon, 21 Oct 2024 12:43:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:16:48.583278
- Title: Diffusion Transformer Policy
- Title(参考訳): 拡散変圧器政策
- Authors: Zhi Hou, Tianyi Zhang, Yuwen Xiong, Hengjun Pu, Chengyang Zhao, Ronglei Tong, Yu Qiao, Jifeng Dai, Yuntao Chen,
- Abstract要約: 多様なロボットデータに基づいて事前訓練された拡散トランスフォーマーポリシーは、異なる実施形態に一般化することができる。
提案手法は,Calvinの新規タスク設定において,1つの3次元カメラストリームのみを用いて,最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 48.50988753948537
- License:
- Abstract: Recent large visual-language action models pretrained on diverse robot datasets have demonstrated the potential for generalizing to new environments with a few in-domain data. However, those approaches usually predict discretized or continuous actions by a small action head, which limits the ability in handling diverse action spaces. In contrast, we model the continuous action with a large multi-modal diffusion transformer, dubbed as Diffusion Transformer Policy, in which we directly denoise action chunks by a large transformer model rather than a small action head. By leveraging the scaling capability of transformers, the proposed approach can effectively model continuous end-effector actions across large diverse robot datasets, and achieve better generalization performance. Extensive experiments demonstrate Diffusion Transformer Policy pretrained on diverse robot data can generalize to different embodiments, including simulation environments like Maniskill2 and Calvin, as well as the real-world Franka arm. Specifically, without bells and whistles, the proposed approach achieves state-of-the-art performance with only a single third-view camera stream in the Calvin novel task setting (ABC->D), improving the average number of tasks completed in a row of 5 to 3.6, and the pretraining stage significantly facilitates the success sequence length on the Calvin by over 1.2. The code will be publicly available.
- Abstract(参考訳): 多様なロボットデータセットで事前訓練された近年の大規模視覚言語アクションモデルでは、ドメイン内の少数のデータで新しい環境に一般化する可能性を実証している。
しかしながら、これらのアプローチは通常、小さなアクションヘッドによる離散化または連続的なアクションを予測し、多様なアクション空間を扱う能力を制限する。
対照的に、我々はDiffusion Transformer Policy(拡散変圧器ポリシー)と呼ばれる大規模なマルチモーダル拡散変圧器を用いて連続的な動作をモデル化する。
トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにまたがる継続的エンドエフェクタ動作を効果的にモデル化し、より優れた一般化性能を実現することができる。
さまざまなロボットデータに基づいて事前訓練された拡散トランスフォーマーポリシーは、Maniskill2やCalvinといったシミュレーション環境や、現実世界のフランカアームなど、さまざまな実施形態に一般化することができる。
具体的には,提案手法は,Calvinの新規タスク設定(ABC->D)において,1つの3次元カメラストリームのみを用いて最先端の性能を実現し,行数5~3.6の平均タスク数を改善するとともに,事前学習段階によってCalvin上での成功シーケンス長を1.2以上向上させる。
コードは公開されます。
関連論文リスト
- FAST: Efficient Action Tokenization for Vision-Language-Action Models [98.15494168962563]
離散コサイン変換に基づくロボット動作のための圧縮に基づく新しいトークン化手法を提案する。
FASTをベースとしたFAST+は,100万個のリアルロボットアクショントラジェクトリに基づいて訓練されたユニバーサルロボットアクショントークンである。
論文 参考訳(メタデータ) (2025-01-16T18:57:04Z) - CARP: Visuomotor Policy Learning via Coarse-to-Fine Autoregressive Prediction [28.761494362934087]
Coarse-to-Fine AutoRegressive Policy (CARP) は、視覚的政策学習のための新しいパラダイムである。
自己回帰行動生成プロセスを再定義し、粗大で、次のスケールのアプローチとする。
CARPは競争の成功率を最大10%改善し、最先端のポリシーに比べて10倍高速な推論を提供する。
論文 参考訳(メタデータ) (2024-12-09T18:59:18Z) - Autoregressive Action Sequence Learning for Robotic Manipulation [32.9580007141312]
既存の自己回帰型アーキテクチャは、言語モデリングにおいて単語トークンとして順次、エンドエフェクタ・ウェイポイントを生成する。
我々は、因果変換器の単一トークン予測を拡張し、単一のステップで可変数のトークンを予測する。
本稿では,ハイブリッドなアクションシーケンスを生成することで操作タスクを解消するAutoregressive Policyアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-10-04T04:07:15Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Perceiver-Actor: A Multi-Task Transformer for Robotic Manipulation [52.94101901600948]
マルチタスク6-DoF操作のための言語条件付き行動閉鎖エージェントPerActを開発した。
PerActはPerceiver Transformerを用いて言語目標とRGB-Dボクセル観測を符号化し、"次の最良のボクセル動作を検出する"ことで識別された動作を出力する。
以上の結果から,PerActは多様なテーブルトップタスクにおいて,非構造化イメージ・ツー・アクション・エージェントと3D ConvNetベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2022-09-12T17:51:05Z) - An Empirical Study of Training End-to-End Vision-and-Language
Transformers [50.23532518166621]
我々はMETER(textbfMultimodal textbfEnd-to-end textbfTransformtextbfER)を提案する。
具体的には、視覚エンコーダ(例えば、CLIP-ViT、Swin変換器)、テキストエンコーダ(例えば、RoBERTa、DeBERTa)、マルチモーダルフュージョン(例えば、マージアテンション対共振器)である。
論文 参考訳(メタデータ) (2021-11-03T17:55:36Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。