論文の概要: LoHoRavens: A Long-Horizon Language-Conditioned Benchmark for Robotic
Tabletop Manipulation
- arxiv url: http://arxiv.org/abs/2310.12020v1
- Date: Wed, 18 Oct 2023 14:53:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 16:05:56.560597
- Title: LoHoRavens: A Long-Horizon Language-Conditioned Benchmark for Robotic
Tabletop Manipulation
- Title(参考訳): LoHoRavens: ロボットテーブルトップ操作のための長期言語仕様ベンチマーク
- Authors: Shengqiang Zhang, Philipp Wicke, L\"utfi Kerem \c{S}enel, Luis
Figueredo, Abdeldjallil Naceri, Sami Haddadin, Barbara Plank, Hinrich
Sch\"utze
- Abstract要約: この研究はテーブルトップ操作タスクに焦点を当て、色、サイズ、空間、算術、参照にまたがる様々なロングホライゾン推論側面をカバーするシミュレーションベンチマークである textitLoHoRavens をリリースする。
LLMに明示的および暗黙的な観察フィードバックを組み込むためのキャプション生成と学習可能なインタフェースの2つの方法を検討した。
- 参考スコア(独自算出の注目度): 38.66406497318709
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The convergence of embodied agents and large language models (LLMs) has
brought significant advancements to embodied instruction following.
Particularly, the strong reasoning capabilities of LLMs make it possible for
robots to perform long-horizon tasks without expensive annotated
demonstrations. However, public benchmarks for testing the long-horizon
reasoning capabilities of language-conditioned robots in various scenarios are
still missing. To fill this gap, this work focuses on the tabletop manipulation
task and releases a simulation benchmark, \textit{LoHoRavens}, which covers
various long-horizon reasoning aspects spanning color, size, space, arithmetics
and reference. Furthermore, there is a key modality bridging problem for
long-horizon manipulation tasks with LLMs: how to incorporate the observation
feedback during robot execution for the LLM's closed-loop planning, which is
however less studied by prior work. We investigate two methods of bridging the
modality gap: caption generation and learnable interface for incorporating
explicit and implicit observation feedback to the LLM, respectively. These
methods serve as the two baselines for our proposed benchmark. Experiments show
that both methods struggle to solve some tasks, indicating long-horizon
manipulation tasks are still challenging for current popular models. We expect
the proposed public benchmark and baselines can help the community develop
better models for long-horizon tabletop manipulation tasks.
- Abstract(参考訳): エンボディエージェントと大規模言語モデル(LLMs)の収束は、インボダイド命令に対する大幅な進歩をもたらした。
特に、LSMの強力な推論能力により、ロボットは高価なアノテートデモなしで長距離タスクを実行できる。
しかし,様々なシナリオにおける言語条件ロボットの長期推論能力をテストするための公開ベンチマークはいまだに欠落している。
このギャップを埋めるために、この研究はテーブルトップ操作タスクに焦点をあて、色、サイズ、空間、算術、参照にまたがる様々な長距離推論の側面をカバーするシミュレーションベンチマークである \textit{LoHoRavens} をリリースする。
さらに、LLMの閉ループ計画において、ロボットの実行中に観察フィードバックを組み込む方法について、LLMによる長期操作タスクにおいて重要なモダリティブリッジング問題がある。
LLMに明示的および暗黙的な観察フィードバックを組み込むためのキャプション生成と学習可能なインタフェースの2つの方法を検討した。
これらの手法は,提案したベンチマークの2つの基準となる。
実験により、どちらの手法もいくつかのタスクを解くのに苦労していることが示され、現在の一般的なモデルでは長い水平操作タスクが依然として難しいことが示されている。
提案された公開ベンチマークとベースラインは、長期のテーブルトップ操作タスクのためのより良いモデル開発に役立つと期待している。
関連論文リスト
- MALMM: Multi-Agent Large Language Models for Zero-Shot Robotics Manipulation [52.739500459903724]
大規模言語モデル(LLM)は、ロボティクスの操作やナビゲーションなど、さまざまな領域にまたがる優れた計画能力を示している。
特殊なLLMエージェント間で高レベル計画および低レベル制御コード生成を分散する新しいマルチエージェントLLMフレームワークを提案する。
長軸タスクを含む9つのRLBenchタスクに対するアプローチを評価し、ゼロショット環境でロボット操作を解く能力を実証した。
論文 参考訳(メタデータ) (2024-11-26T17:53:44Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - Plan-Seq-Learn: Language Model Guided RL for Solving Long Horizon Robotics Tasks [50.27313829438866]
Plan-Seq-Learn (PSL) は、抽象言語と学習した低レベル制御の間のギャップを埋めるためにモーションプランニングを使用するモジュラーアプローチである。
PSLは85%以上の成功率、言語ベース、古典的、エンドツーエンドのアプローチを達成している。
論文 参考訳(メタデータ) (2024-05-02T17:59:31Z) - Large Language Models for Orchestrating Bimanual Robots [19.60907949776435]
本稿では,Language-based Bimanual Orchestration (LABOR)を提案する。
NICOLヒューマノイドロボットを用いた2種類の長距離作業のシミュレーション実験により,本手法の評価を行った。
論文 参考訳(メタデータ) (2024-04-02T15:08:35Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Generalizable Long-Horizon Manipulations with Large Language Models [91.740084601715]
本研究は,Large Language Models (LLMs) の機能を活用して,汎用可能な長距離操作のための原始的なタスク条件を生成するフレームワークを導入する。
我々は,Pybulletに基づくロボット操作タスクスイートを作成し,長期作業評価を行う。
論文 参考訳(メタデータ) (2023-10-03T17:59:46Z) - Ground Manipulator Primitive Tasks to Executable Actions using Large
Language Models [13.827349677538352]
大規模言語モデル(LLM)を用いた低レベル動作ロボットのためのマニピュレータ・プリミティブ・タスクを基礎とする新しい手法を提案する。
このようにして、LLMはハイブリッド制御のための位置/力のセットポイントを生成することができる。
論文 参考訳(メタデータ) (2023-08-13T16:52:36Z) - LEMMA: Learning Language-Conditioned Multi-Robot Manipulation [21.75163634731677]
LanguagE-Conditioned Multi-robot Manipulation (LEMMA)
LeMMAは、手続き的に生成されるタスクが8種類あり、複雑さは様々である。
それぞれのタスクに対して,800の専門的なデモンストレーションと,トレーニングと評価のためのヒューマンインストラクションを提供します。
論文 参考訳(メタデータ) (2023-08-02T04:37:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。