論文の概要: Keypoint Action Tokens Enable In-Context Imitation Learning in Robotics
- arxiv url: http://arxiv.org/abs/2403.19578v3
- Date: Thu, 17 Oct 2024 19:31:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:23:26.320107
- Title: Keypoint Action Tokens Enable In-Context Imitation Learning in Robotics
- Title(参考訳): ロボットにおけるインテクストの模倣学習を可能にするKeypoint Action Token
- Authors: Norman Di Palo, Edward Johns,
- Abstract要約: 市販のテキストベースのトランスフォーマーは、追加の訓練を伴わずに、数発のインコンテクスト・イン・コンテクスト・ビジュアル・模倣学習を行うことができることを示す。
テキストプリトレーニングされたトランスフォーマーが取り込み、生成できるトークンのシーケンスに視覚的観察を変換することで、これを実現する。
これらのトランスフォーマーは, 言語のみに基づいて訓練されているにもかかわらず, トークン化された視覚的キーポイントの観察を行動軌跡に翻訳することに優れていた。
- 参考スコア(独自算出の注目度): 11.88216611522207
- License:
- Abstract: We show that off-the-shelf text-based Transformers, with no additional training, can perform few-shot in-context visual imitation learning, mapping visual observations to action sequences that emulate the demonstrator's behaviour. We achieve this by transforming visual observations (inputs) and trajectories of actions (outputs) into sequences of tokens that a text-pretrained Transformer (GPT-4 Turbo) can ingest and generate, via a framework we call Keypoint Action Tokens (KAT). Despite being trained only on language, we show that these Transformers excel at translating tokenised visual keypoint observations into action trajectories, performing on par or better than state-of-the-art imitation learning (diffusion policies) in the low-data regime on a suite of real-world, everyday tasks. Rather than operating in the language domain as is typical, KAT leverages text-based Transformers to operate in the vision and action domains to learn general patterns in demonstration data for highly efficient imitation learning, indicating promising new avenues for repurposing natural language models for embodied tasks. Videos are available at https://www.robot-learning.uk/keypoint-action-tokens.
- Abstract(参考訳): 市販のテキストベースのトランスフォーマーは、追加の訓練を伴わずに、数発のインコンテクストによる視覚的模倣学習を行い、視覚的な観察をデモの動作を模倣するアクションシーケンスにマッピングできることを実証する。
我々は、視覚的な観察(インプット)と行動(アウトプット)の軌跡を、私たちがKeypoint Action Tokens (KAT)と呼ぶフレームワークを介して、テキストプリトレーニングされたTransformer (GPT-4 Turbo)が取り込み、生成できるトークンのシーケンスに変換することで、これを実現する。
これらのトランスフォーマーは、言語のみに基づいて訓練されているにもかかわらず、トークン化された視覚的キーポイントの観察を行動軌跡に翻訳し、実世界の日常的な一連の作業において、ローデータ体制における最先端の模倣学習(拡散ポリシー)よりも同等かそれ以上に実行できることが示される。
典型的なように言語領域で操作する代わりに、KATはテキストベースのトランスフォーマーを利用して視覚と行動領域で操作し、デモデータの一般的なパターンを学習し、高い効率の模倣学習を行い、実施タスクのために自然言語モデルを再利用するための新たな道を示す。
ビデオはhttps://www.robot-learning.uk/keypoint-action-tokensで公開されている。
関連論文リスト
- Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。
LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。
本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T16:28:09Z) - FILS: Self-Supervised Video Feature Prediction In Semantic Language Space [11.641926922266347]
本稿では,セマンティックビデオ表現を学習するための自己教師型アプローチを示す。
本稿では,意味言語空間における特徴予測手法であるFILSについて述べる。
論文 参考訳(メタデータ) (2024-06-05T16:44:06Z) - Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z) - RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic
Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。
提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文 参考訳(メタデータ) (2023-07-28T21:18:02Z) - Learning Expressive Prompting With Residuals for Vision Transformers [11.342913284654706]
視覚変換器(ViT)の有効適応に特化して学習パラダイムを改良したEXPRES(Expressive Prompts with Residuals)を提案する。
本手法は,VTABベンチマークの3/3カテゴリにおいて,画像分類,少ないショット学習,セマンティックセマンティックセマンティックセマンティクスにEXPRESを適用した。
論文 参考訳(メタデータ) (2023-03-27T20:47:01Z) - Instruction-Following Agents with Multimodal Transformer [95.70039658112873]
本稿では,視覚環境下での指示追従課題をロボットが解くための,シンプルで効果的なモデルを提案する。
本手法は,視覚観察と言語指示を符号化したマルチモーダルトランスフォーマーからなる。
この統一型トランスモデルは, シングルタスクとマルチタスクの両方で, 最先端のトレーニング済みあるいは訓練済みのスクラッチ手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-24T17:46:47Z) - Episodic Transformer for Vision-and-Language Navigation [142.6236659368177]
本稿では,長時間のサブタスク処理と複雑なヒューマンインストラクションの理解という2つの課題に取り組むことに焦点を当てる。
エピソード変換器(E.T.)を提案する。
言語入力と視覚観察と行動の全エピソード履歴を符号化するマルチモーダルトランスフォーマーである。
我々のアプローチは、挑戦的なALFREDベンチマークに新たな技術状況を設定し、見つからないテストの分割で38.4%と8.5%のタスク成功率を達成した。
論文 参考訳(メタデータ) (2021-05-13T17:51:46Z) - Self-Supervised learning with cross-modal transformers for emotion
recognition [20.973999078271483]
自己教師型学習は、音声や自然言語のようなドメインでラベル付きデータセットが限定されたタスクの改善を示している。
本研究では,マルチモーダルアプリケーションに自己指導型トレーニングを拡張する。
論文 参考訳(メタデータ) (2020-11-20T21:38:34Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。