論文の概要: RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic
Control
- arxiv url: http://arxiv.org/abs/2307.15818v1
- Date: Fri, 28 Jul 2023 21:18:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 19:27:25.465000
- Title: RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic
Control
- Title(参考訳): rt-2: 視覚言語行動モデルによるweb知識のロボット制御
- Authors: Anthony Brohan, Noah Brown, Justice Carbajal, Yevgen Chebotar, Xi
Chen, Krzysztof Choromanski, Tianli Ding, Danny Driess, Avinava Dubey,
Chelsea Finn, Pete Florence, Chuyuan Fu, Montse Gonzalez Arenas, Keerthana
Gopalakrishnan, Kehang Han, Karol Hausman, Alexander Herzog, Jasmine Hsu,
Brian Ichter, Alex Irpan, Nikhil Joshi, Ryan Julian, Dmitry Kalashnikov,
Yuheng Kuang, Isabel Leal, Lisa Lee, Tsang-Wei Edward Lee, Sergey Levine, Yao
Lu, Henryk Michalewski, Igor Mordatch, Karl Pertsch, Kanishka Rao, Krista
Reymann, Michael Ryoo, Grecia Salazar, Pannag Sanketi, Pierre Sermanet,
Jaspiar Singh, Anikait Singh, Radu Soricut, Huong Tran, Vincent Vanhoucke,
Quan Vuong, Ayzaan Wahid, Stefan Welker, Paul Wohlhart, Jialin Wu, Fei Xia,
Ted Xiao, Peng Xu, Sichun Xu, Tianhe Yu, and Brianna Zitkovich
- Abstract要約: 本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。
提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
- 参考スコア(独自算出の注目度): 140.48218261864153
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study how vision-language models trained on Internet-scale data can be
incorporated directly into end-to-end robotic control to boost generalization
and enable emergent semantic reasoning. Our goal is to enable a single
end-to-end trained model to both learn to map robot observations to actions and
enjoy the benefits of large-scale pretraining on language and vision-language
data from the web. To this end, we propose to co-fine-tune state-of-the-art
vision-language models on both robotic trajectory data and Internet-scale
vision-language tasks, such as visual question answering. In contrast to other
approaches, we propose a simple, general recipe to achieve this goal: in order
to fit both natural language responses and robotic actions into the same
format, we express the actions as text tokens and incorporate them directly
into the training set of the model in the same way as natural language tokens.
We refer to such category of models as vision-language-action models (VLA) and
instantiate an example of such a model, which we call RT-2. Our extensive
evaluation (6k evaluation trials) shows that our approach leads to performant
robotic policies and enables RT-2 to obtain a range of emergent capabilities
from Internet-scale training. This includes significantly improved
generalization to novel objects, the ability to interpret commands not present
in the robot training data (such as placing an object onto a particular number
or icon), and the ability to perform rudimentary reasoning in response to user
commands (such as picking up the smallest or largest object, or the one closest
to another object). We further show that incorporating chain of thought
reasoning allows RT-2 to perform multi-stage semantic reasoning, for example
figuring out which object to pick up for use as an improvised hammer (a rock),
or which type of drink is best suited for someone who is tired (an energy
drink).
- Abstract(参考訳): 我々は,インターネットスケールデータにトレーニングされた視覚言語モデルが,エンドツーエンドロボット制御に直接組み込まれ,一般化を促進し,創発的な意味的推論を可能にする方法について検討する。
私たちのゴールは、単一エンドツーエンドのトレーニングモデルで、ロボットの観察をアクションにマッピングし、Webから言語や視覚言語のデータに基づいて大規模な事前学習を行うことのメリットを享受することにあります。
そこで本研究では,ロボット軌道データと視覚質問応答などのインターネット規模の視覚言語タスクの両面から,最先端の視覚言語モデルを構築することを提案する。
自然言語応答とロボット動作の両方を同じフォーマットに適合させるために、アクションをテキストトークンとして表現し、それらを自然言語トークンと同じようにモデルのトレーニングセットに直接組み込む。
このようなモデルのカテゴリを視覚言語アクションモデル(VLA)と呼び、RT-2と呼ぶモデルの一例をインスタンス化する。
広範評価(6k評価試験)により,本手法はロボットの動作性向上に寄与し,RT-2がインターネット規模のトレーニングから創発的能力の獲得を可能にした。
これには、新しいオブジェクトへの一般化が大幅に改善され、ロボットのトレーニングデータに存在しないコマンド(特定の番号やアイコンにオブジェクトを配置するなど)を解釈する能力、ユーザコマンド(最小または最大のオブジェクトを拾い上げる、または他のオブジェクトに最も近いもの)に対する初歩的な推論を行う能力が含まれる。
さらに,rt-2の連鎖的思考推論により,即興ハンマー(岩)として使用する物体や,疲れた人(エナジードリンク)に最適な飲み物など,rt-2が多段階的な意味的推論を行うことができることを示した。
関連論文リスト
- Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。
LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。
本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T16:28:09Z) - KALIE: Fine-Tuning Vision-Language Models for Open-World Manipulation without Robot Data [45.25288643161976]
本稿では,ロボット制御をスケーラブルに行うために,KALIE(Keypoint Affordance Learning from Imagined Environments)を提案する。
モーターコマンドを直接生成する代わりに、KALIEはポイントベースの価格表現を予測してロボットを制御する。
我々はKALIEが、50個のデータポイントしか持たない未確認オブジェクトで、新しい操作タスクを堅牢に解くことができることを実証した。
論文 参考訳(メタデータ) (2024-09-21T08:45:16Z) - LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning [50.99807031490589]
LLARVAは,ロボット学習タスク,シナリオ,環境を統一するための,新しい指導指導法で訓練されたモデルである。
我々は,Open X-Embodimentデータセットから8.5Mの画像-視覚的トレースペアを生成し,モデルを事前学習する。
実験によって強い性能が得られ、LLARVAは現代のいくつかのベースラインと比較してよく機能することを示した。
論文 参考訳(メタデータ) (2024-06-17T17:55:29Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - LIV: Language-Image Representations and Rewards for Robotic Control [37.12560985663822]
テキストアノテーションを用いたアクションフリービデオから視覚言語表現と報酬学習の統一的な目的について述べる。
我々はLIVを用いて、EpicKitchenのような大規模な人間のビデオデータセットから制御中心の視覚言語表現を事前学習する。
本研究は,統合されたコンパクトなLIVフレームワークにおける共同視覚言語表現と報酬学習の利点を検証した。
論文 参考訳(メタデータ) (2023-06-01T17:52:23Z) - PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。
我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。
562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文 参考訳(メタデータ) (2023-03-06T18:58:06Z) - Language-Driven Representation Learning for Robotics [115.93273609767145]
ロボット工学における視覚表現学習の最近の研究は、日々の作業を行う人間の大規模なビデオデータセットから学ぶことの可能性を実証している。
人間のビデオやキャプションから言語による表現学習を行うためのフレームワークを提案する。
我々は、Voltronの言語駆動学習が、特に高レベル制御を必要とするターゲット問題において、先行技術よりも優れていることを発見した。
論文 参考訳(メタデータ) (2023-02-24T17:29:31Z) - Learning Flexible Translation between Robot Actions and Language
Descriptions [16.538887534958555]
本稿では,ロボット動作と言語記述とのフレキシブルな変換のためのペアゲートオートエンコーダ(PGAE)を提案する。
我々は、各アクションを、翻訳方向に関する信号を含む適切な記述とペアリングすることで、エンド・ツー・エンドでモデルを訓練する。
事前訓練された言語モデルを言語エンコーダとして使用するオプションにより、我々のモデルは目に見えない自然言語入力を認識することができる。
論文 参考訳(メタデータ) (2022-07-15T12:37:05Z) - Language Model-Based Paired Variational Autoencoders for Robotic Language Learning [18.851256771007748]
人間の幼児と同様、人工エージェントは環境と対話しながら言語を学ぶことができる。
本稿では,ロボットの動作と言語記述を双方向に結合するニューラルモデルを提案する。
次に, PVAE-BERTを導入し, 事前訓練された大規模言語モデルとモデルを同調する。
論文 参考訳(メタデータ) (2022-01-17T10:05:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。