Fugu-MT 論文翻訳(概要): Diffusion Transformer Policy

論文の概要: Diffusion Transformer Policy

arxiv url: http://arxiv.org/abs/2410.15959v1
Date: Mon, 21 Oct 2024 12:43:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:38.439982
Title: Diffusion Transformer Policy
Title（参考訳）: 拡散変圧器政策
Authors: Zhi Hou, Tianyi Zhang, Yuwen Xiong, Hengjun Pu, Chengyang Zhao, Ronglei Tong, Yu Qiao, Jifeng Dai, Yuntao Chen,
Abstract要約: 多様なロボットデータに基づいて事前訓練された拡散トランスフォーマーポリシーは、異なる実施形態に一般化することができる。提案手法は,Calvinの新規タスク設定において,1つの3次元カメラストリームのみを用いて,最先端の性能を実現する。
参考スコア（独自算出の注目度）: 48.50988753948537
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent large visual-language action models pretrained on diverse robot datasets have demonstrated the potential for generalizing to new environments with a few in-domain data. However, those approaches usually predict discretized or continuous actions by a small action head, which limits the ability in handling diverse action spaces. In contrast, we model the continuous action with a large multi-modal diffusion transformer, dubbed as Diffusion Transformer Policy, in which we directly denoise action chunks by a large transformer model rather than a small action head. By leveraging the scaling capability of transformers, the proposed approach can effectively model continuous end-effector actions across large diverse robot datasets, and achieve better generalization performance. Extensive experiments demonstrate Diffusion Transformer Policy pretrained on diverse robot data can generalize to different embodiments, including simulation environments like Maniskill2 and Calvin, as well as the real-world Franka arm. Specifically, without bells and whistles, the proposed approach achieves state-of-the-art performance with only a single third-view camera stream in the Calvin novel task setting (ABC->D), improving the average number of tasks completed in a row of 5 to 3.6, and the pretraining stage significantly facilitates the success sequence length on the Calvin by over 1.2. The code will be publicly available.
Abstract（参考訳）: 多様なロボットデータセットで事前訓練された近年の大規模視覚言語アクションモデルでは、ドメイン内の少数のデータで新しい環境に一般化する可能性を実証している。しかしながら、これらのアプローチは通常、小さなアクションヘッドによる離散化または連続的なアクションを予測し、多様なアクション空間を扱う能力を制限する。対照的に、我々はDiffusion Transformer Policy(拡散変圧器ポリシー)と呼ばれる大規模なマルチモーダル拡散変圧器を用いて連続的な動作をモデル化する。トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにまたがる継続的エンドエフェクタ動作を効果的にモデル化し、より優れた一般化性能を実現することができる。さまざまなロボットデータに基づいて事前訓練された拡散トランスフォーマーポリシーは、Maniskill2やCalvinといったシミュレーション環境や、現実世界のフランカアームなど、さまざまな実施形態に一般化することができる。具体的には,提案手法は,Calvinの新規タスク設定(ABC->D)において,1つの3次元カメラストリームのみを用いて最先端の性能を実現し,行数5～3.6の平均タスク数を改善するとともに,事前学習段階によってCalvin上での成功シーケンス長を1.2以上向上させる。コードは公開されます。

関連論文リスト

Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [56.424032454461695]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。 Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。 Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文参考訳（メタデータ） (2025-03-25T15:19:56Z)
Quantization-Free Autoregressive Action Transformer [18.499864366974613]
現在のトランスフォーマーに基づく模倣学習アプローチは、離散的なアクション表現を導入し、結果として生じる潜在コードに対して自己回帰型トランスフォーマーデコーダを訓練する。本稿では,自動回帰変換器の直接的かつ連続的なポリシパラメトリゼーションとして生成無限語彙変換器(GIVT)を利用する量子化フリー手法を提案する。
論文参考訳（メタデータ） (2025-03-18T13:50:35Z)
FAST: Efficient Action Tokenization for Vision-Language-Action Models [98.15494168962563]
離散コサイン変換に基づくロボット動作のための圧縮に基づく新しいトークン化手法を提案する。 FASTをベースとしたFAST+は,100万個のリアルロボットアクショントラジェクトリに基づいて訓練されたユニバーサルロボットアクショントークンである。
論文参考訳（メタデータ） (2025-01-16T18:57:04Z)
CARP: Visuomotor Policy Learning via Coarse-to-Fine Autoregressive Prediction [28.761494362934087]
Coarse-to-Fine AutoRegressive Policy (CARP) は、視覚的政策学習のための新しいパラダイムである。自己回帰行動生成プロセスを再定義し、粗大で、次のスケールのアプローチとする。 CARPは競争の成功率を最大10%改善し、最先端のポリシーに比べて10倍高速な推論を提供する。
論文参考訳（メタデータ） (2024-12-09T18:59:18Z)
One-Step Diffusion Policy: Fast Visuomotor Policies via Diffusion Distillation [80.71541671907426]
OneStep Diffusion Policy (OneDP)は、事前訓練された拡散政策から知識を単一ステップのアクションジェネレータに蒸留する新しいアプローチである。 OneDPはロボット制御タスクの応答時間を著しく短縮する。
論文参考訳（メタデータ） (2024-10-28T17:54:31Z)
Autoregressive Action Sequence Learning for Robotic Manipulation [32.9580007141312]
既存の自己回帰型アーキテクチャは、言語モデリングにおいて単語トークンとして順次、エンドエフェクタ・ウェイポイントを生成する。我々は、因果変換器の単一トークン予測を拡張し、単一のステップで可変数のトークンを予測する。本稿では,ハイブリッドなアクションシーケンスを生成することで操作タスクを解消するAutoregressive Policyアーキテクチャを提案する。
論文参考訳（メタデータ） (2024-10-04T04:07:15Z)
SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation [62.58480650443393]
Segment Anything (SAM) は、一般化可能なシーン理解とシーケンス模倣のための視覚境界モデルである。我々は,単一パスにおけるアクションシーケンスの予測を可能にする,新しいマルチチャネルヒートマップを開発した。
論文参考訳（メタデータ） (2024-05-30T00:32:51Z)
Diffscaler: Enhancing the Generative Prowess of Diffusion Transformers [34.611309081801345]
本稿では,1つの事前学習拡散変圧器モデルにより,複数のデータセットを高速にスケールできるようにすることに焦点をあてる。 DiffScalerは拡散モデルの効率的なスケーリング戦略であり、異なるタスクに適応するために最小限のパラメータを訓練する。変換器に基づく拡散モデルは,より小さなデータセットに対して微調整を行いながら,CNNに基づく拡散モデルよりも大幅に優れていることがわかった。
論文参考訳（メタデータ） (2024-04-15T17:55:43Z)
TransFusion: A Practical and Effective Transformer-based Diffusion Model for 3D Human Motion Prediction [1.8923948104852863]
本研究では,3次元動作予測のための革新的で実用的な拡散モデルであるTransFusionを提案する。我々のモデルは、浅い層と深い層の間の長いスキップ接続を持つバックボーンとしてTransformerを活用している。クロスアテンションや適応層正規化のような余分なモジュールを利用する従来の拡散モデルとは対照的に、条件を含む全ての入力をトークンとして扱い、より軽量なモデルを作成する。
論文参考訳（メタデータ） (2023-07-30T01:52:07Z)
Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文参考訳（メタデータ） (2023-05-26T00:43:02Z)
Perceiver-Actor: A Multi-Task Transformer for Robotic Manipulation [52.94101901600948]
マルチタスク6-DoF操作のための言語条件付き行動閉鎖エージェントPerActを開発した。 PerActはPerceiver Transformerを用いて言語目標とRGB-Dボクセル観測を符号化し、"次の最良のボクセル動作を検出する"ことで識別された動作を出力する。以上の結果から,PerActは多様なテーブルトップタスクにおいて,非構造化イメージ・ツー・アクション・エージェントと3D ConvNetベースラインを著しく上回っていることがわかった。
論文参考訳（メタデータ） (2022-09-12T17:51:05Z)
ActFormer: A GAN Transformer Framework towards General Action-Conditioned 3D Human Motion Generation [16.1094669439815]
一般動作条件付き3次元モーション生成のためのGANトランスフォーマフレームワークを提案する。我々のアプローチは、GANトレーニングスキームの下で強力なActFormer(ActFormer)によって構成される。 ActFormerは、時間的相関とトランスフォーマーエンコーダとのヒューマンインタラクションを交互にモデル化することで、自然にマルチパーソン動作に拡張することができる。
論文参考訳（メタデータ） (2022-03-15T07:50:12Z)
UPDeT: Universal Multi-agent Reinforcement Learning via Policy Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文参考訳（メタデータ） (2021-01-20T07:24:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。