論文の概要: Language-Conditioned Robotic Manipulation with Fast and Slow Thinking
- arxiv url: http://arxiv.org/abs/2401.04181v1
- Date: Mon, 8 Jan 2024 19:00:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 18:33:12.295123
- Title: Language-Conditioned Robotic Manipulation with Fast and Slow Thinking
- Title(参考訳): 高速・低速思考による言語条件付きロボットマニピュレーション
- Authors: Minjie Zhu, Yichen Zhu, Jinming Li, Junjie Wen, Zhiyuan Xu, Zhengping
Che, Chaomin Shen, Yaxin Peng, Dong Liu, Feifei Feng, Jian Tang
- Abstract要約: 我々は、人間の認知アーキテクチャを模倣してタスクを分類するフレームワーク、Fast and Slow Thinking (RFST)を紹介した。
RFSTは,1)現在のユーザ命令に基づいてどのシステムが起動されるべきかを決定する命令判別器,2)ポリシーネットワークに整合した微調整された視覚言語モデルで構成されるスロー思考システム,の2つの主要コンポーネントから構成される。
シミュレーションと実世界のシナリオの両方において,本手法が意図認識と推論を必要とする複雑なタスクを十分に管理していることを確認した。
- 参考スコア(独自算出の注目度): 30.36976573047372
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The language-conditioned robotic manipulation aims to transfer natural
language instructions into executable actions, from simple pick-and-place to
tasks requiring intent recognition and visual reasoning. Inspired by the dual
process theory in cognitive science, which suggests two parallel systems of
fast and slow thinking in human decision-making, we introduce Robotics with
Fast and Slow Thinking (RFST), a framework that mimics human cognitive
architecture to classify tasks and makes decisions on two systems based on
instruction types. Our RFST consists of two key components: 1) an instruction
discriminator to determine which system should be activated based on the
current user instruction, and 2) a slow-thinking system that is comprised of a
fine-tuned vision language model aligned with the policy networks, which allows
the robot to recognize user intention or perform reasoning tasks. To assess our
methodology, we built a dataset featuring real-world trajectories, capturing
actions ranging from spontaneous impulses to tasks requiring deliberate
contemplation. Our results, both in simulation and real-world scenarios,
confirm that our approach adeptly manages intricate tasks that demand intent
recognition and reasoning. The project is available at
https://jlm-z.github.io/RSFT/
- Abstract(参考訳): 言語条件のロボット操作は、自然言語命令を単純なピック・アンド・プレイスから意図認識と視覚的推論を必要とするタスクへ、実行可能なアクションに転送することを目的としている。
認知科学における双対プロセス理論に触発されて,人間の意思決定における高速かつ遅い思考の2つの並列システムを提案する。我々は,人間の認知アーキテクチャを模倣してタスクを分類し,命令型に基づく2つのシステム上で意思決定を行うフレームワークであるfast and slow thinking (rfst) を用いたロボティクスを導入する。
私たちのRFSTは2つのキーコンポーネントから構成されています。
1) 現在のユーザ命令に基づいて、どのシステムが起動されるべきかを判断する命令判別器
2) 政策ネットワークと連携した微調整された視覚言語モデルからなるスロー思考システムにより,ロボットはユーザの意図を認識したり,推論タスクを実行したりすることができる。
私たちの方法論を評価するために、私たちは現実世界の軌跡を特徴とするデータセットを構築しました。
シミュレーションと実世界のシナリオの両方において,本手法が意図認識と推論を必要とする複雑なタスクを十分に管理していることを確認した。
このプロジェクトはhttps://jlm-z.github.io/RSFT/で入手できる。
関連論文リスト
- SECURE: Semantics-aware Embodied Conversation under Unawareness for Lifelong Robot Learning [17.125080112897102]
本稿では,ロボットが指示されたタスクを解く上で鍵となる概念を知らない,困難な対話型タスク学習シナリオについて論じる。
本稿では,このような問題を解決するための対話型タスク学習フレームワークSECUREを提案する。
SECUREを用いて、ロボットはミスをしたときのユーザの補正フィードバックから学習するだけでなく、指示されたタスクを解決するための新しい概念に関する有用な証拠を明らかにするための戦略的対話決定も行う。
論文 参考訳(メタデータ) (2024-09-26T11:40:07Z) - RoboScript: Code Generation for Free-Form Manipulation Tasks across Real
and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。
自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。
我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文 参考訳(メタデータ) (2024-02-22T15:12:00Z) - CoPAL: Corrective Planning of Robot Actions with Large Language Models [8.209152055117283]
本稿では,認知レベル間のシームレスな相互作用を編成し,推論,計画,動作生成を包含するシステムアーキテクチャを提案する。
中心となるのは、生成した計画における物理的に基底的、論理的、セマンティックなエラーを処理する、新しいリプラン戦略である。
論文 参考訳(メタデータ) (2023-10-11T07:39:42Z) - RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic
Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。
提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文 参考訳(メタデータ) (2023-07-28T21:18:02Z) - Incremental procedural and sensorimotor learning in cognitive humanoid
robots [52.77024349608834]
本研究は,手順を段階的に学習する認知エージェントを提案する。
各サブステージで必要とされる認知機能と, エージェントが未解決の課題に, 新たな機能の追加がどう対処するかを示す。
結果は、このアプローチが複雑なタスクを段階的に解くことができることを示している。
論文 参考訳(メタデータ) (2023-04-30T22:51:31Z) - Dexterous Manipulation from Images: Autonomous Real-World RL via Substep
Guidance [71.36749876465618]
本稿では,ユーザが新しいタスクを定義するための"プログラミング不要"なアプローチを提供する,視覚に基づくデクスタラスな操作システムについて述べる。
本システムには,最終タスクと中間タスクを画像例で定義するためのフレームワークが組み込まれている。
実世界における多段階物体操作の4指ロボットハンドラーによる実験結果
論文 参考訳(メタデータ) (2022-12-19T22:50:40Z) - Enhancing Interpretability and Interactivity in Robot Manipulation: A
Neurosymbolic Approach [0.0]
本稿では,言語誘導型視覚推論とロボット操作を結合したニューロシンボリックアーキテクチャを提案する。
非熟練の人間ユーザは、制約のない自然言語を用いてロボットに刺激を与え、参照表現(REF)、質問(VQA)、把握動作指示を提供する。
シミュレーション環境では,3次元視覚と言語によるテーブルトップシーンの合成データセットを作成し,我々のアプローチを訓練し,合成シーンと実世界のシーンの両方で広範な評価を行う。
論文 参考訳(メタデータ) (2022-10-03T12:21:45Z) - Language-Conditioned Imitation Learning for Robot Manipulation Tasks [39.40937105264774]
本研究では,非構造化自然言語を模倣学習に組み込む手法を提案する。
訓練時には、専門家は、基礎となる意図を説明するために、言語記述とともにデモンストレーションを行うことができる。
トレーニングプロセスはこれらの2つのモードを相互に関連付け、言語、知覚、動きの相関を符号化する。
結果として得られた言語条件のvisuomotorポリシーは、実行時に新しいヒューマンコマンドと命令で条件付けできる。
論文 参考訳(メタデータ) (2020-10-22T21:49:08Z) - Axiom Learning and Belief Tracing for Transparent Decision Making in
Robotics [8.566457170664926]
ロボットがその決定や信念の説明を提供する能力は、人間との効果的なコラボレーションを促進する。
我々のアーキテクチャは、非単調な論理的推論、ディープラーニング、決定木帰納の相補的な強みを兼ね備えています。
推論と学習の間、このアーキテクチャにより、ロボットはその決定、信念、仮説的行動の結果について、オンデマンドでリレーショナルな記述を提供することができる。
論文 参考訳(メタデータ) (2020-10-20T22:09:17Z) - Learning Adaptive Language Interfaces through Decomposition [89.21937539950966]
本稿では,分解による新しいハイレベルな抽象化を学習するニューラルセマンティック解析システムを提案する。
ユーザは、新しい振る舞いを記述する高レベルな発話を低レベルなステップに分解することで、対話的にシステムを教える。
論文 参考訳(メタデータ) (2020-10-11T08:27:07Z) - Thinking While Moving: Deep Reinforcement Learning with Concurrent
Control [122.49572467292293]
本研究では,制御システムの時間的進化とともに,ポリシーからのアクションのサンプリングを同時に行わなければならないような環境下での強化学習について検討する。
人や動物のように、ロボットは思考と移動を同時に行わなければならず、前の動作が完了する前に次の動作を決定する。
論文 参考訳(メタデータ) (2020-04-13T17:49:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。