論文の概要: Think, Reflect, Create: Metacognitive Learning for Zero-Shot Robotic Planning with LLMs
- arxiv url: http://arxiv.org/abs/2505.14899v1
- Date: Tue, 20 May 2025 20:51:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.748761
- Title: Think, Reflect, Create: Metacognitive Learning for Zero-Shot Robotic Planning with LLMs
- Title(参考訳): 思考, 反射, 創造: LLMを用いたゼロショットロボット計画のためのメタ認知学習
- Authors: Wenjie Lin, Jin Wei-Kocsis,
- Abstract要約: メタ認知学習を大規模言語モデル(LLM)に統合する初期段階フレームワークを提案する。
提案するフレームワークは, LLMを動力とするロボットエージェントに, スキル分解と自己回帰機構を備える。
実験の結果,メタ認知学習を利用したLLMフレームワークは,既存のベースラインを著しく上回ることがわかった。
- 参考スコア(独自算出の注目度): 0.6755874937407783
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While large language models (LLMs) have shown great potential across various domains, their applications in robotics remain largely limited to static, prompt-based behaviors and still face challenges in handling complex tasks under zero-shot or few-shot settings. Inspired by human metacognitive learning and creative problem-solving, we address this limitation by exploring a fundamental research question: Can LLMs be empowered with metacognitive capabilities to reason, reflect, and create, thereby enhancing their ability to perform robotic tasks with minimal demonstrations? In this paper, we present an early-stage framework that integrates metacognitive learning into LLM-powered multi-robot collaboration. The proposed framework equips the LLM-powered robotic agents with a skill decomposition and self-reflection mechanism that identifies modular skills from prior tasks, reflects on failures in unseen task scenarios, and synthesizes effective new solutions. Experimental results show that our metacognitive-learning-empowered LLM framework significantly outperforms existing baselines. Moreover, we observe that the framework is capable of generating solutions that differ from the ground truth yet still successfully complete the tasks. These exciting findings support our hypothesis that metacognitive learning can foster creativity in robotic planning.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な領域で大きな可能性を示しているが、ロボット工学におけるその応用は、静的でプロンプトベースの動作に限られており、ゼロショットや少数ショットの設定下で複雑なタスクを扱う際の課題に直面している。
人間のメタ認知学習と創造的問題解決にインスパイアされた私たちは、基本的な研究課題を探求することで、この制限に対処する。 LLMは、メタ認知能力によって、最小限のデモンストレーションでロボットタスクの実行能力を向上させることができるか?
本稿では,メタ認知学習をLLMを利用したマルチロボットコラボレーションに統合する初期段階フレームワークを提案する。
提案フレームワークは,LLMを利用したロボットエージェントに,従来のタスクからモジュラースキルを識別し,目に見えないタスクシナリオの失敗を反映し,効果的な新しいソリューションを合成する,スキル分解と自己回帰機構を備える。
実験の結果,メタ認知学習を利用したLLMフレームワークは,既存のベースラインを著しく上回ることがわかった。
さらに,本フレームワークは,基礎的な真理と異なる解を生成することができるが,それでもタスクを完了させることができた。
これらのエキサイティングな発見は、メタ認知学習がロボット計画における創造性を育むことができるという私たちの仮説を支持します。
関連論文リスト
- A Call for New Recipes to Enhance Spatial Reasoning in MLLMs [85.67171333213301]
MLLM(Multimodal Large Language Models)は、一般的な視覚言語タスクにおいて印象的な性能を示す。
近年の研究では、空間的推論能力の限界が明らかにされている。
この空間的推論の欠如は、MLLMが物理的世界と効果的に相互作用する能力を著しく制限する。
論文 参考訳(メタデータ) (2025-04-21T11:48:39Z) - MoLe-VLA: Dynamic Layer-skipping Vision Language Action Model via Mixture-of-Layers for Efficient Robot Manipulation [24.200547898713126]
MLLM(Multimodal Large Language Models)は、複雑な言語と視覚的データの理解に優れる。
彼らの実世界の展開は、相当な計算とストレージの需要によって妨げられている。
動的LDM層活性化のためのMixture-of-Layers Vision-Language-Action Model (MoLe) アーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-03-26T10:05:38Z) - Large Language Models as Natural Selector for Embodied Soft Robot Design [5.023206838671049]
本稿では,大規模言語モデルがソフトロボット設計の表現を学習できるかどうかを評価する新しいベンチマークであるRoboCrafter-QAを紹介する。
実験の結果,これらのモデルが設計表現を学習する上で有望な能力を示す一方で,微妙な性能差を持つ設計の微妙な区別に苦慮していることが判明した。
論文 参考訳(メタデータ) (2025-03-04T03:55:10Z) - Cognitive LLMs: Towards Integrating Cognitive Architectures and Large Language Models for Manufacturing Decision-making [51.737762570776006]
LLM-ACTRは、ヒトに適応し、多目的な意思決定を提供する新しいニューロシンボリックアーキテクチャである。
我々のフレームワークは、ACT-Rの内部決定過程の知識を潜在神経表現として抽出し、組み込む。
デザイン・フォー・マニュファクチャリング・タスクに関する我々の実験は、タスク性能の向上と基礎的意思決定能力の向上を両立させたものである。
論文 参考訳(メタデータ) (2024-08-17T11:49:53Z) - WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks [85.95607119635102]
大型言語モデル(LLM)は人間のような知性を模倣することができる。
WorkArena++は、Webエージェントの計画、問題解決、論理的/論理的推論、検索、コンテキスト的理解能力を評価するように設計されている。
論文 参考訳(メタデータ) (2024-07-07T07:15:49Z) - Look Before You Leap: Unveiling the Power of GPT-4V in Robotic
Vision-Language Planning [32.045840007623276]
本稿では,ロボットビジョン・ランゲージ計画(ViLa)について紹介する。
ViLaは、知覚データを推論と計画プロセスに直接統合する。
実ロボットとシミュレーション環境の両方で実施した評価は,既存のLCMプランナよりもViLaの方が優れていることを示す。
論文 参考訳(メタデータ) (2023-11-29T17:46:25Z) - LLM as A Robotic Brain: Unifying Egocentric Memory and Control [77.0899374628474]
Embodied AIは、物理的または仮想的なエンボディメント(つまりロボット)を持つインテリジェントシステムの研究と開発に焦点を当てている。
メモリとコントロールは、具体化されたシステムの2つの不可欠な部分であり、通常、それぞれをモデル化するために別々のフレームワークを必要とします。
ロボット脳として大規模言語モデルを用いて,エゴセントリックな記憶と制御を統一するLLM-Brainという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-19T00:08:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。