論文の概要: LIV: Language-Image Representations and Rewards for Robotic Control
- arxiv url: http://arxiv.org/abs/2306.00958v1
- Date: Thu, 1 Jun 2023 17:52:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 13:58:20.065182
- Title: LIV: Language-Image Representations and Rewards for Robotic Control
- Title(参考訳): LIV:ロボット制御のための言語画像表現とリワード
- Authors: Yecheng Jason Ma, William Liang, Vaidehi Som, Vikash Kumar, Amy Zhang,
Osbert Bastani, Dinesh Jayaraman
- Abstract要約: テキストアノテーションを用いたアクションフリービデオから視覚言語表現と報酬学習の統一的な目的について述べる。
我々はLIVを用いて、EpicKitchenのような大規模な人間のビデオデータセットから制御中心の視覚言語表現を事前学習する。
本研究は,統合されたコンパクトなLIVフレームワークにおける共同視覚言語表現と報酬学習の利点を検証した。
- 参考スコア(独自算出の注目度): 37.12560985663822
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Language-Image Value learning (LIV), a unified objective for
vision-language representation and reward learning from action-free videos with
text annotations. Exploiting a novel connection between dual reinforcement
learning and mutual information contrastive learning, the LIV objective trains
a multi-modal representation that implicitly encodes a universal value function
for tasks specified as language or image goals. We use LIV to pre-train the
first control-centric vision-language representation from large human video
datasets such as EpicKitchen. Given only a language or image goal, the
pre-trained LIV model can assign dense rewards to each frame in videos of
unseen robots or humans attempting that task in unseen environments. Further,
when some target domain-specific data is available, the same objective can be
used to fine-tune and improve LIV and even other pre-trained representations
for robotic control and reward specification in that domain. In our experiments
on several simulated and real-world robot environments, LIV models consistently
outperform the best prior input state representations for imitation learning,
as well as reward specification methods for policy synthesis. Our results
validate the advantages of joint vision-language representation and reward
learning within the unified, compact LIV framework.
- Abstract(参考訳): テキストアノテーション付きアクションフリービデオから視覚言語表現と報酬学習の統一目的であるLanguage-Image Value Learning(LIV)を提案する。
二重強化学習と相互情報コントラスト学習の新たな関係を利用して、livは言語や画像目標に指定されたタスクの普遍値関数を暗黙的にエンコードするマルチモーダル表現を訓練する。
我々はLIVを用いて、EpicKitchenのような大規模な人間のビデオデータセットから制御中心の視覚言語表現を事前学習する。
言語や画像の目標のみを前提として、事前訓練されたLIVモデルは、見えない環境でそのタスクを試みているロボットや人間のビデオの中で、各フレームに密度の高い報酬を割り当てる。
さらに、対象のドメイン固有データがある場合、同じ目的を使ってlivやその他の事前訓練済み表現を微調整し、そのドメインにおけるロボット制御および報酬仕様に改良することができる。
シミュレーションおよび実世界のロボット環境における実験において、LIVモデルは、模擬学習における最高の入力状態表現とポリシー合成のための報酬仕様法を一貫して上回っている。
本研究は,統合型コンパクトLIVフレームワークにおける共同視覚言語表現と報酬学習の利点を検証した。
関連論文リスト
- KALIE: Fine-Tuning Vision-Language Models for Open-World Manipulation without Robot Data [45.25288643161976]
本稿では,ロボット制御をスケーラブルに行うために,KALIE(Keypoint Affordance Learning from Imagined Environments)を提案する。
モーターコマンドを直接生成する代わりに、KALIEはポイントベースの価格表現を予測してロボットを制御する。
我々はKALIEが、50個のデータポイントしか持たない未確認オブジェクトで、新しい操作タスクを堅牢に解くことができることを実証した。
論文 参考訳(メタデータ) (2024-09-21T08:45:16Z) - Adapt2Reward: Adapting Video-Language Models to Generalizable Robotic Rewards via Failure Prompts [21.249837293326497]
一般的な報酬機能は、ロボットの強化学習と計画の中心である。
本稿では,ロバストな一般化を伴う映像言語モデルを言語条件の報酬関数に変換する。
本モデルは,ロボット計画と強化学習のための新しい環境と新しい指示に対する優れた一般化を示す。
論文 参考訳(メタデータ) (2024-07-20T13:22:59Z) - Video-Language Critic: Transferable Reward Functions for Language-Conditioned Robotics [25.2461925479135]
Video-Language Criticは、簡単に利用可能なクロスボディデータに基づいてトレーニングできる報酬モデルである。
我々のモデルは、スパース報酬のみよりもメタワールドタスクにおける2倍のサンプル効率のポリシートレーニングを可能にします。
論文 参考訳(メタデータ) (2024-05-30T12:18:06Z) - RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic
Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。
提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文 参考訳(メタデータ) (2023-07-28T21:18:02Z) - PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。
我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。
562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文 参考訳(メタデータ) (2023-03-06T18:58:06Z) - Language-Driven Representation Learning for Robotics [115.93273609767145]
ロボット工学における視覚表現学習の最近の研究は、日々の作業を行う人間の大規模なビデオデータセットから学ぶことの可能性を実証している。
人間のビデオやキャプションから言語による表現学習を行うためのフレームワークを提案する。
我々は、Voltronの言語駆動学習が、特に高レベル制御を必要とするターゲット問題において、先行技術よりも優れていることを発見した。
論文 参考訳(メタデータ) (2023-02-24T17:29:31Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z) - Language Model-Based Paired Variational Autoencoders for Robotic Language Learning [18.851256771007748]
人間の幼児と同様、人工エージェントは環境と対話しながら言語を学ぶことができる。
本稿では,ロボットの動作と言語記述を双方向に結合するニューラルモデルを提案する。
次に, PVAE-BERTを導入し, 事前訓練された大規模言語モデルとモデルを同調する。
論文 参考訳(メタデータ) (2022-01-17T10:05:26Z) - Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。
本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。
ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-16T00:19:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。