Fugu-MT 論文翻訳(概要): Perceiver-Actor: A Multi-Task Transformer for Robotic Manipulation

論文の概要: Perceiver-Actor: A Multi-Task Transformer for Robotic Manipulation

arxiv url: http://arxiv.org/abs/2209.05451v1
Date: Mon, 12 Sep 2022 17:51:05 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-13 12:14:17.387117
Title: Perceiver-Actor: A Multi-Task Transformer for Robotic Manipulation
Title（参考訳）: ロボット操作のためのマルチタスクトランスフォーマーperceiver-actor
Authors: Mohit Shridhar, Lucas Manuelli, Dieter Fox
Abstract要約: マルチタスク6-DoF操作のための言語条件付き行動閉鎖エージェントPerActを開発した。 PerActはPerceiver Transformerを用いて言語目標とRGB-Dボクセル観測を符号化し、"次の最良のボクセル動作を検出する"ことで識別された動作を出力する。以上の結果から,PerActは多様なテーブルトップタスクにおいて,非構造化イメージ・ツー・アクション・エージェントと3D ConvNetベースラインを著しく上回っていることがわかった。
参考スコア（独自算出の注目度）: 52.94101901600948
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformers have revolutionized vision and natural language processing with their ability to scale with large datasets. But in robotic manipulation, data is both limited and expensive. Can we still benefit from Transformers with the right problem formulation? We investigate this question with PerAct, a language-conditioned behavior-cloning agent for multi-task 6-DoF manipulation. PerAct encodes language goals and RGB-D voxel observations with a Perceiver Transformer, and outputs discretized actions by "detecting the next best voxel action". Unlike frameworks that operate on 2D images, the voxelized observation and action space provides a strong structural prior for efficiently learning 6-DoF policies. With this formulation, we train a single multi-task Transformer for 18 RLBench tasks (with 249 variations) and 7 real-world tasks (with 18 variations) from just a few demonstrations per task. Our results show that PerAct significantly outperforms unstructured image-to-action agents and 3D ConvNet baselines for a wide range of tabletop tasks.
Abstract（参考訳）: トランスフォーマーは、大規模なデータセットでスケールする能力によって、視覚と自然言語処理に革命をもたらした。しかしロボット操作では、データは限定的かつ高価である。正しい問題定式化を持つトランスフォーマーの恩恵を受けられるか? マルチタスク 6-dof 操作のための言語条件付きビヘイビアクローニングエージェントである peract を用いて,この問題を調査した。 PerActはPerceiver Transformerで言語目標とRGB-Dのボクセル観測を符号化し、"次の最高のボクセルアクションを検出する"ことで識別されたアクションを出力する。 2dイメージで動作するフレームワークとは異なり、voxelized observationとaction spaceは、6-dofポリシーを効率的に学習するための強力な構造的優先を提供する。この定式化により、1つのマルチタスクトランスフォーマーを18のRLBenchタスク(249のバリエーション)と7つの現実世界タスク(18のバリエーション)に対して、タスク毎のデモからトレーニングする。以上の結果から,peract は非構造化イメージ・ツー・アクションエージェントや3d convnet ベースラインを大きく上回っている。

関連論文リスト

Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [56.424032454461695]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。 Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。 Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文参考訳（メタデータ） (2025-03-25T15:19:56Z)
Autoregressive Action Sequence Learning for Robotic Manipulation [32.9580007141312]
既存の自己回帰型アーキテクチャは、言語モデリングにおいて単語トークンとして順次、エンドエフェクタ・ウェイポイントを生成する。我々は、因果変換器の単一トークン予測を拡張し、単一のステップで可変数のトークンを予測する。本稿では,ハイブリッドなアクションシーケンスを生成することで操作タスクを解消するAutoregressive Policyアーキテクチャを提案する。
論文参考訳（メタデータ） (2024-10-04T04:07:15Z)
LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文参考訳（メタデータ） (2024-06-28T17:59:12Z)
Bridging Language, Vision and Action: Multimodal VAEs in Robotic Manipulation Tasks [0.0]
本研究では,ロボット操作分野における教師なし視覚-言語-アクションマッピングに着目した。本研究では,シミュレータにおけるモデルの性能を最大55%向上させるモデル不変学習法を提案する。我々の研究は、ロボット運動軌跡の教師なし学習に現在のマルチモーダルVAEを使用することの潜在的な利点と限界にも光を当てている。
論文参考訳（メタデータ） (2024-04-02T13:25:16Z)
RVT: Robotic View Transformer for 3D Object Manipulation [46.25268237442356]
本稿では,スケーラブルかつ高精度な3次元操作のためのマルチビュー変換器RVTを提案する。単一のRVTモデルは18のRLBenchタスクに対して249のタスクバリエーションでうまく動作し、既存の最先端手法(PerAct)よりも26%高い相対的な成功を達成している。
論文参考訳（メタデータ） (2023-06-26T17:59:31Z)
Imitating Task and Motion Planning with Visuomotor Transformers [71.41938181838124]
タスク・アンド・モーション・プランニング(TAMP)は、多様なデモンストレーションの大規模なデータセットを自律的に生成できる。本研究では,TAMPスーパーバイザが生成する大規模データセットと,それらに適合するフレキシブルトランスフォーマーモデルの組み合わせが,ロボット操作の強力なパラダイムであることを示す。我々は,TAMPエージェントを模倣して大規模ビジュモータトランスフォーマーポリシーを訓練する OPTIMUS という新しい模倣学習システムを提案する。
論文参考訳（メタデータ） (2023-05-25T17:58:14Z)
Instruction-Following Agents with Multimodal Transformer [95.70039658112873]
本稿では,視覚環境下での指示追従課題をロボットが解くための,シンプルで効果的なモデルを提案する。本手法は,視覚観察と言語指示を符号化したマルチモーダルトランスフォーマーからなる。この統一型トランスモデルは, シングルタスクとマルチタスクの両方で, 最先端のトレーニング済みあるいは訓練済みのスクラッチ手法よりも優れていることを示す。
論文参考訳（メタデータ） (2022-10-24T17:46:47Z)
VIMA: General Robot Manipulation with Multimodal Prompts [82.01214865117637]
ロボット操作タスクの幅広い範囲をマルチモーダルプロンプトで表現できることを示す。我々は,数千の手続き的に生成されたテーブルトップタスクからなる新しいシミュレーションベンチマークを開発した。我々は、これらのプロンプトを処理し、自動回帰的に運動動作を出力するトランスフォーマーベースのロボットエージェントVIMAを設計する。
論文参考訳（メタデータ） (2022-10-06T17:50:11Z)
Instruction-driven history-aware policies for robotic manipulations [82.25511767738224]
複数の入力を考慮に入れた統一型トランスフォーマー方式を提案する。特に,我々のトランスフォーマーアーキテクチャは,(i)自然言語命令と(ii)多視点シーン観測を統合している。 RLBenchベンチマークと実世界のロボットを用いて,本手法の評価を行った。
論文参考訳（メタデータ） (2022-09-11T16:28:25Z)
Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文参考訳（メタデータ） (2021-01-04T18:57:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。