論文の概要: CALVIN: A Benchmark for Language-conditioned Policy Learning for
Long-horizon Robot Manipulation Tasks
- arxiv url: http://arxiv.org/abs/2112.03227v2
- Date: Wed, 8 Dec 2021 10:04:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-09 11:57:39.650765
- Title: CALVIN: A Benchmark for Language-conditioned Policy Learning for
Long-horizon Robot Manipulation Tasks
- Title(参考訳): CALVIN:長軸ロボット操作タスクのための言語条件ポリシー学習のベンチマーク
- Authors: Oier Mees, Lukas Hermann, Erick Rosete-Beas, Wolfram Burgard
- Abstract要約: 汎用ロボットは、人間の言語を認識や行動に関連付けることを学ばなければならない。
CALVIN(CALVIN)は、長期の言語条件のタスクを学習するためのオープンソースのシミュレーションベンチマークである。
- 参考スコア(独自算出の注目度): 30.936692970187416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: General-purpose robots coexisting with humans in their environment must learn
to relate human language to their perceptions and actions to be useful in a
range of daily tasks. Moreover, they need to acquire a diverse repertoire of
general-purpose skills that allow composing long-horizon tasks by following
unconstrained language instructions. In this paper, we present CALVIN
(Composing Actions from Language and Vision), an open-source simulated
benchmark to learn long-horizon language-conditioned tasks. Our aim is to make
it possible to develop agents that can solve many robotic manipulation tasks
over a long horizon, from onboard sensors, and specified only via human
language. CALVIN tasks are more complex in terms of sequence length, action
space, and language than existing vision-and-language task datasets and
supports flexible specification of sensor suites. We evaluate the agents in
zero-shot to novel language instructions and to novel environments and objects.
We show that a baseline model based on multi-context imitation learning
performs poorly on CALVIN, suggesting that there is significant room for
developing innovative agents that learn to relate human language to their world
models with this benchmark.
- Abstract(参考訳): 人間と環境に共存する汎用ロボットは、人間の言語と人間の認識や行動との関係を学習し、日々の作業に役立てる必要がある。
さらに、制約のない言語指示に従うことで、長期タスクを構成できる汎用スキルの多様なレパートリーを取得する必要がある。
本稿では,CALVIN(Composing Actions from Language and Vision)を提案する。
我々の目標は、ロボット操作のタスクを長時間にわたって、オンボードセンサーから、人間の言語でのみ特定できるエージェントの開発を可能にすることにある。
CALVINタスクは、既存の視覚・言語タスクデータセットよりもシーケンスの長さ、アクションスペース、言語が複雑であり、センサースイートの柔軟な仕様をサポートする。
我々は、ゼロショットのエージェントを、新しい言語命令や、新しい環境やオブジェクトに対して評価する。
マルチコンテキスト模倣学習に基づくベースラインモデルでは,calvinではパフォーマンスが悪く,このベンチマークで人間の言語と世界モデルとの関係を学習する革新的なエージェントを開発する余地があることが示唆された。
関連論文リスト
- Rethinking Mutual Information for Language Conditioned Skill Discovery
on Imitation Learning [36.624923972563415]
我々はLanguage Conditioned Skill Discovery (LCSD)として知られるエンドツーエンドの模倣学習手法を提案する。
ベクトル量子化を利用して離散潜在スキルを学習し、軌跡のスキルシーケンスを活用して高レベルの意味的命令を再構築する。
提案手法は,未確認タスクに対する一般化能力の向上,スキル解釈性の向上,タスク完了の成功率の向上などを示す。
論文 参考訳(メタデータ) (2024-02-27T13:53:52Z) - Simple Embodied Language Learning as a Byproduct of Meta-Reinforcement
Learning [56.07190845063208]
具体的強化学習(RL)エージェントは、非言語タスクから間接的に言語を学習できるか?
エージェントが特定のオフィスを見つけることを目標とするオフィスナビゲーション環境を設計し、異なる建物(タスク)でオフィスロケーションが異なる。
我々は、RLエージェントが言語を間接的に学習できることを発見した。現在のメタRLアルゴリズムで訓練されたエージェントは、ホールドアウトレイアウトと言語フレーズでフロアプランを読むことに成功している。
論文 参考訳(メタデータ) (2023-06-14T09:48:48Z) - Accessible Instruction-Following Agent [0.0]
UVLNは、言語間視覚言語ナビゲーションのための新しい機械翻訳命令拡張フレームワークである。
我々は、標準VLNトレーニング目標を言語間エンコーダを介して多言語設定に拡張する。
Room Across Roomデータセットによる実験は、我々のアプローチの有効性を証明する。
論文 参考訳(メタデータ) (2023-05-08T23:57:26Z) - ARNOLD: A Benchmark for Language-Grounded Task Learning With Continuous
States in Realistic 3D Scenes [72.83187997344406]
ARNOLDは、現実的な3Dシーンにおける連続状態による言語によるタスク学習を評価するベンチマークである。
ARNOLDは、オブジェクト状態の理解と継続的な目標のための学習ポリシーを含む8つの言語条件のタスクで構成されている。
論文 参考訳(メタデータ) (2023-04-09T21:42:57Z) - Language-Driven Representation Learning for Robotics [115.93273609767145]
ロボット工学における視覚表現学習の最近の研究は、日々の作業を行う人間の大規模なビデオデータセットから学ぶことの可能性を実証している。
人間のビデオやキャプションから言語による表現学習を行うためのフレームワークを提案する。
我々は、Voltronの言語駆動学習が、特に高レベル制御を必要とするターゲット問題において、先行技術よりも優れていることを発見した。
論文 参考訳(メタデータ) (2023-02-24T17:29:31Z) - Robotic Skill Acquisition via Instruction Augmentation with
Vision-Language Models [70.82705830137708]
言語条件制御のためのデータ駆動型インストラクション拡張(DIAL)について紹介する。
我々は,CLIPのセマンティック理解を利用したセミ言語ラベルを用いて,未知の実演データの大規模なデータセットに知識を伝達する。
DIALは、模倣学習ポリシーによって、新しい能力を獲得し、元のデータセットにない60の新しい命令を一般化することができる。
論文 参考訳(メタデータ) (2022-11-21T18:56:00Z) - Grounding Language with Visual Affordances over Unstructured Data [26.92329260907805]
本研究では,非構造化,オフライン,リセットのないデータから,言語条件のロボットスキルを効率的に学習するための新しい手法を提案する。
我々は、言語による全データの1%しか必要としない自己教師型ビジュオ言語割当モデルを利用する。
提案手法は,従来の手法よりも桁違いに少ないデータで,リアルタイムに長時間の多層タスクを完了できることがわかった。
論文 参考訳(メタデータ) (2022-10-04T21:16:48Z) - What Matters in Language Conditioned Robotic Imitation Learning [26.92329260907805]
オフラインのフリーフォーム模倣データセットから言語条件付きポリシーを学習する際の最も重要な課題について検討する。
本稿では,CALVINベンチマークを用いて,言語条件の難易度を向上する手法を提案する。
論文 参考訳(メタデータ) (2022-04-13T08:45:32Z) - Do As I Can, Not As I Say: Grounding Language in Robotic Affordances [119.29555551279155]
大規模な言語モデルは、世界に関する豊富な意味知識を符号化することができる。
このような知識は、自然言語で表現された高レベルで時間的に拡張された命令を動作させようとするロボットにとって極めて有用である。
低レベルのスキルを大規模言語モデルと組み合わせることで,言語モデルが複雑かつ時間的に拡張された命令を実行する手順について高いレベルの知識を提供することを示す。
論文 参考訳(メタデータ) (2022-04-04T17:57:11Z) - Learning Language-Conditioned Robot Behavior from Offline Data and
Crowd-Sourced Annotation [80.29069988090912]
本研究では,ロボットインタラクションの大規模なオフラインデータセットから視覚に基づく操作タスクを学習する問題について検討する。
クラウドソースの自然言語ラベルを用いたオフラインロボットデータセットの活用を提案する。
提案手法は目標画像仕様と言語条件付き模倣技術の両方を25%以上上回っていることがわかった。
論文 参考訳(メタデータ) (2021-09-02T17:42:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。