論文の概要: ARNOLD: A Benchmark for Language-Grounded Task Learning With Continuous
States in Realistic 3D Scenes
- arxiv url: http://arxiv.org/abs/2304.04321v1
- Date: Sun, 9 Apr 2023 21:42:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 16:25:15.463501
- Title: ARNOLD: A Benchmark for Language-Grounded Task Learning With Continuous
States in Realistic 3D Scenes
- Title(参考訳): ARNOLD: 現実的な3Dシーンにおける連続状態を用いた言語学習のベンチマーク
- Authors: Ran Gong, Jiangyong Huang, Yizhou Zhao, Haoran Geng, Xiaofeng Gao,
Qingyang Wu, Wensi Ai, Ziheng Zhou, Demetri Terzopoulos, Song-Chun Zhu,
Baoxiong Jia, Siyuan Huang
- Abstract要約: ARNOLDは、現実的な3Dシーンにおける連続状態による言語によるタスク学習を評価するベンチマークである。
ARNOLDは、オブジェクト状態の理解と継続的な目標のための学習ポリシーを含む8つの言語条件のタスクで構成されている。
- 参考スコア(独自算出の注目度): 80.93192480134665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the continuous states of objects is essential for task learning
and planning in the real world. However, most existing task learning benchmarks
assume discrete(e.g., binary) object goal states, which poses challenges for
the learning of complex tasks and transferring learned policy from simulated
environments to the real world. Furthermore, state discretization limits a
robot's ability to follow human instructions based on the grounding of actions
and states. To tackle these challenges, we present ARNOLD, a benchmark that
evaluates language-grounded task learning with continuous states in realistic
3D scenes. ARNOLD is comprised of 8 language-conditioned tasks that involve
understanding object states and learning policies for continuous goals. To
promote language-instructed learning, we provide expert demonstrations with
template-generated language descriptions. We assess task performance by
utilizing the latest language-conditioned policy learning models. Our results
indicate that current models for language-conditioned manipulations continue to
experience significant challenges in novel goal-state generalizations, scene
generalizations, and object generalizations. These findings highlight the need
to develop new algorithms that address this gap and underscore the potential
for further research in this area. See our project page at:
https://arnold-benchmark.github.io
- Abstract(参考訳): オブジェクトの連続状態を理解することは、現実世界のタスク学習と計画に不可欠です。
しかし、既存のタスク学習ベンチマークでは、複雑なタスクの学習や、シミュレートされた環境から現実世界への学習ポリシーの移譲に挑戦する、離散的(バイナリ)な目標状態が想定されている。
さらに、状態の離散化は、動作と状態の基底に基づく人間の指示に従うロボットの能力を制限する。
これらの課題に対処するために、現実的な3Dシーンにおける連続状態を用いて言語によるタスク学習を評価するベンチマークARNOLDを提案する。
ARNOLDは、オブジェクト状態の理解と継続的な目標のための学習ポリシーを含む8つの言語条件のタスクで構成されている。
言語学習を促進するために,テンプレート生成言語記述を用いたエキスパートデモンストレーションを行う。
最新の言語条件付き政策学習モデルを用いてタスク性能を評価する。
以上の結果から,現在の言語条件操作モデルでは,新たな目標状態一般化,シーン一般化,オブジェクト一般化において大きな課題が残されている。
これらの発見は、このギャップに対処し、この分野におけるさらなる研究の可能性を強調する新しいアルゴリズムを開発する必要性を強調している。
https://arnold-benchmark.github.io プロジェクトページを参照。
関連論文リスト
- Towards Generalizable Vision-Language Robotic Manipulation: A Benchmark and LLM-guided 3D Policy [68.50785963043161]
GemBenchは視覚言語ロボット操作ポリシーの一般化能力を評価するための新しいベンチマークである。
LLMのタスク計画機能と3D-LOTUSの動作計画機能を統合するフレームワークである3D-LOTUS++を提案する。
3D-LOTUS++はGemBenchの新しいタスクで最先端のパフォーマンスを実現し、ロボット操作の一般化のための新しい標準を設定している。
論文 参考訳(メタデータ) (2024-10-02T09:02:34Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - Learning with Language-Guided State Abstractions [58.199148890064826]
高次元観測空間における一般化可能なポリシー学習は、よく設計された状態表現によって促進される。
我々の手法であるLGAは、自然言語の監視と言語モデルからの背景知識を組み合わせて、目に見えないタスクに適した状態表現を自動構築する。
シミュレーションされたロボットタスクの実験では、LGAは人間によって設計されたものと同様の状態抽象化をもたらすが、そのほんの少しの時間で得られる。
論文 参考訳(メタデータ) (2024-02-28T23:57:04Z) - LanGWM: Language Grounded World Model [24.86620763902546]
我々は,世界モデル学習を強化するために,言語による視覚的特徴を学習することに注力する。
提案手法は,人間とロボットの相互作用モデルを改善する可能性を秘めている。
論文 参考訳(メタデータ) (2023-11-29T12:41:55Z) - Grounding Language with Visual Affordances over Unstructured Data [26.92329260907805]
本研究では,非構造化,オフライン,リセットのないデータから,言語条件のロボットスキルを効率的に学習するための新しい手法を提案する。
我々は、言語による全データの1%しか必要としない自己教師型ビジュオ言語割当モデルを利用する。
提案手法は,従来の手法よりも桁違いに少ないデータで,リアルタイムに長時間の多層タスクを完了できることがわかった。
論文 参考訳(メタデータ) (2022-10-04T21:16:48Z) - Semantic Exploration from Language Abstractions and Pretrained
Representations [23.02024937564099]
効果的な探究は強化学習(RL)の課題である
意味論的に意味のある状態抽象化を用いて新規性を定義する。
自然画像キャプションデータセットに基づく視覚言語表現の評価を行った。
論文 参考訳(メタデータ) (2022-04-08T17:08:00Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z) - Analyzing the Limits of Self-Supervision in Handling Bias in Language [52.26068057260399]
我々は、言語モデルが、認識、識別、抽出、言い換えの4つのタスクのセマンティクスをいかにうまく捉えているかを評価する。
分析の結果,言語モデルでは,ジェンダーや政治的アフィリエイトなど,様々なバイアス次元にまたがって,これらのタスクを広範囲にわたって実行することが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-12-16T05:36:08Z) - CALVIN: A Benchmark for Language-conditioned Policy Learning for
Long-horizon Robot Manipulation Tasks [30.936692970187416]
汎用ロボットは、人間の言語を認識や行動に関連付けることを学ばなければならない。
CALVIN(CALVIN)は、長期の言語条件のタスクを学習するためのオープンソースのシミュレーションベンチマークである。
論文 参考訳(メタデータ) (2021-12-06T18:37:33Z) - Inverse Reinforcement Learning with Natural Language Goals [8.972202854038382]
言語条件付きポリシーと報酬関数を学習するための新しい逆強化学習アルゴリズムを提案する。
提案アルゴリズムは,視覚に基づく自然言語によるデータセットの学習において,複数のベースラインをはるかに上回る性能を示した。
論文 参考訳(メタデータ) (2020-08-16T14:43:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。