論文の概要: Enabling robots to follow abstract instructions and complete complex dynamic tasks
- arxiv url: http://arxiv.org/abs/2406.11231v1
- Date: Mon, 17 Jun 2024 05:55:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 18:14:15.069692
- Title: Enabling robots to follow abstract instructions and complete complex dynamic tasks
- Title(参考訳): ロボットによる抽象的な指示の追従と複雑な動的タスクの実現
- Authors: Ruaridh Mon-Williams, Gen Li, Ran Long, Wenqian Du, Chris Lucas,
- Abstract要約: 本稿では,大規模言語モデル,キュレートされた知識ベース,統合力と視覚フィードバック(IFVF)を組み合わせた新しいフレームワークを提案する。
提案手法は,抽象的な命令を解釈し,長期的タスクを実行し,不確実性に対処する。
私たちの発見は、付随するビデオで説明され、オープンソースのGitHubリポジトリでサポートされています。
- 参考スコア(独自算出の注目度): 4.514939211420443
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Completing complex tasks in unpredictable settings like home kitchens challenges robotic systems. These challenges include interpreting high-level human commands, such as "make me a hot beverage" and performing actions like pouring a precise amount of water into a moving mug. To address these challenges, we present a novel framework that combines Large Language Models (LLMs), a curated Knowledge Base, and Integrated Force and Visual Feedback (IFVF). Our approach interprets abstract instructions, performs long-horizon tasks, and handles various uncertainties. It utilises GPT-4 to analyse the user's query and surroundings, then generates code that accesses a curated database of functions during execution. It translates abstract instructions into actionable steps. Each step involves generating custom code by employing retrieval-augmented generalisation to pull IFVF-relevant examples from the Knowledge Base. IFVF allows the robot to respond to noise and disturbances during execution. We use coffee making and plate decoration to demonstrate our approach, including components ranging from pouring to drawer opening, each benefiting from distinct feedback types and methods. This novel advancement marks significant progress toward a scalable, efficient robotic framework for completing complex tasks in uncertain environments. Our findings are illustrated in an accompanying video and supported by an open-source GitHub repository (released upon paper acceptance).
- Abstract(参考訳): ホームキッチンのような予測不可能な環境で複雑なタスクを補完することは、ロボットシステムに挑戦する。
これらの課題には、「ホットドリンクを作れ」といった高いレベルの人間の命令を解釈することや、動いているマグカップに正確な量の水を注ぐような行為が含まれる。
これらの課題に対処するため、我々はLarge Language Models (LLMs)、キュレートされた知識ベース、Integrated Force and Visual Feedback (IFVF)を組み合わせた新しいフレームワークを提案する。
提案手法は,抽象的な命令を解釈し,長期的タスクを実行し,不確実性に対処する。
GPT-4を利用してユーザーのクエリと周辺を分析し、実行中に関数のキュレートされたデータベースにアクセスするコードを生成する。
抽象命令を実行可能なステップに変換する。
各ステップは、知識ベースからIFVF関連例を引き出すために、検索強化の一般化を利用することで、カスタムコードを生成する。
IFVFは、ロボットが実行中にノイズや障害に反応することを可能にする。
コーヒーの作り方や板の飾り方を使って、注ぐものから引き出しの開口部分まで、それぞれ異なるフィードバックタイプや方法の恩恵を受けています。
この新たな進歩は、不確実な環境で複雑なタスクを完了するためのスケーラブルで効率的なロボットフレームワークへの大きな進歩を示す。
私たちの発見は、付随するビデオで説明され、オープンソースGitHubリポジトリでサポートされています(論文の受理に基づいてリリースされています)。
関連論文リスト
- DISCO: Embodied Navigation and Interaction via Differentiable Scene Semantics and Dual-level Control [53.80518003412016]
人間の命令によって多様なタスクに熟練した汎用的なインテリジェントホームアシストエージェントを構築することは、AI研究の長期的青写真である。
本研究では,具体的エージェントに対する原始的移動操作,すなわち指示された動詞と名詞のペアに基づいて,ナビゲートと対話の仕方について検討する。
本研究では、文脈化されたシーンモデリングと効率的な制御における非自明な進歩を特徴とするdisCOを提案する。
論文 参考訳(メタデータ) (2024-07-20T05:39:28Z) - Frontend Diffusion: Exploring Intent-Based User Interfaces through Abstract-to-Detailed Task Transitions [1.845645938093348]
ユーザスケッチから高品質なWebサイトを生成するエンドツーエンドツールであるFrontend Diffusionを紹介した。
複雑なタスクにおける人的介入やコミュニケーションコストを低減するために,タスク遷移の可能性を示す。
論文 参考訳(メタデータ) (2024-07-16T20:24:35Z) - ROS-LLM: A ROS framework for embodied AI with task feedback and structured reasoning [74.58666091522198]
非専門家による直感的なロボットプログラミングのためのフレームワークを提案する。
ロボットオペレーティングシステム(ROS)からの自然言語のプロンプトと文脈情報を活用する
我々のシステムは,大規模言語モデル (LLM) を統合し,非専門家がチャットインタフェースを通じてシステムにタスク要求を記述できるようにする。
論文 参考訳(メタデータ) (2024-06-28T08:28:38Z) - Scaling Instructable Agents Across Many Simulated Worlds [70.97268311053328]
私たちのゴールは、シミュレーションされた3D環境で人間ができることを何でも達成できるエージェントを開発することです。
我々のアプローチは、最小限の仮定を示唆しながら、言語駆動の一般性に焦点を当てている。
我々のエージェントは、汎用的なヒューマンライクなインタフェースを使って、リアルタイムで環境と対話する。
論文 参考訳(メタデータ) (2024-03-13T17:50:32Z) - NaturalVLM: Leveraging Fine-grained Natural Language for
Affordance-Guided Visual Manipulation [21.02437461550044]
多くの実世界のタスクは複雑な多段階推論を必要とする。
15個の異なる操作タスクからなるベンチマークであるNrVLMを導入する。
そこで本研究では,操作タスクをステップバイステップで完了させる新しい学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-13T09:12:16Z) - MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting [97.52388851329667]
我々は,自由形式の言語命令で指定されたロボット操作タスクを解決するために,マーキングオープンワールドキーポイントアフォード(Moka)を導入する。
我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。
ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。
論文 参考訳(メタデータ) (2024-03-05T18:08:45Z) - Verifiably Following Complex Robot Instructions with Foundation Models [16.564788361518197]
人々は、柔軟に制約を表現し、任意のランドマークを参照し、ロボットに指示する際の検証を望みます。
本稿では,ロボットが表現的かつ複雑なオープンエンド命令を確実に追従できるような,動き計画のための言語指導基盤を提案する。
LIMは、インストラクターの意図したロボットのアライメントを明らかにする象徴的な指示表現を構築する。
論文 参考訳(メタデータ) (2024-02-18T08:05:54Z) - Fully Automated Task Management for Generation, Execution, and
Evaluation: A Framework for Fetch-and-Carry Tasks with Natural Language
Instructions in Continuous Space [1.2691047660244337]
本稿では,視覚情報に基づくタスク実行を実現するためのフレームワークを開発することを目的とする。
本稿では,FCOGタスクの生成,実行,評価の完全自動化のためのフレームワークを提案する。
さらに、FCOGタスクを4つの異なるサブタスクに分割することで、FCOGタスクを解決する方法を提案する。
論文 参考訳(メタデータ) (2023-11-07T15:38:09Z) - AlphaBlock: Embodied Finetuning for Vision-Language Reasoning in Robot
Manipulation [50.737355245505334]
本稿では,ロボット操作タスクにおける高レベル認知能力を学習するための新しいフレームワークを提案する。
得られたデータセットAlphaBlockは、多段階のテキストプランとペア観測による35の包括的なハイレベルタスクで構成されている。
論文 参考訳(メタデータ) (2023-05-30T09:54:20Z) - Instruction-driven history-aware policies for robotic manipulations [82.25511767738224]
複数の入力を考慮に入れた統一型トランスフォーマー方式を提案する。
特に,我々のトランスフォーマーアーキテクチャは,(i)自然言語命令と(ii)多視点シーン観測を統合している。
RLBenchベンチマークと実世界のロボットを用いて,本手法の評価を行った。
論文 参考訳(メタデータ) (2022-09-11T16:28:25Z) - MOCA: A Modular Object-Centric Approach for Interactive Instruction
Following [19.57344182656879]
本稿では,タスクを視覚認識と行動ポリシーに分離するモジュールアーキテクチャを提案する。
提案手法をALFREDベンチマークで評価し,先行技術より優れていることを実証的に検証した。
論文 参考訳(メタデータ) (2020-12-06T07:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。