Fugu-MT 論文翻訳(概要): Think, Reflect, Create: Metacognitive Learning for Zero-Shot Robotic Planning with LLMs

論文の概要: Think, Reflect, Create: Metacognitive Learning for Zero-Shot Robotic Planning with LLMs

arxiv url: http://arxiv.org/abs/2505.14899v2
Date: Sat, 02 Aug 2025 09:43:52 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-05 14:07:56.801286
Title: Think, Reflect, Create: Metacognitive Learning for Zero-Shot Robotic Planning with LLMs
Title（参考訳）: 思考, 反射, 創造: LLMを用いたゼロショットロボット計画のためのメタ認知学習
Authors: Wenjie Lin, Jin Wei-Kocsis, Jiansong Zhang, Byung-Cheol Min, Dongming Gan, Paul Asunda, Ragu Athinarayanan,
Abstract要約: 大規模言語モデル(LLM)は、様々な領域において大きな可能性を示している。メタ認知学習をLLMによるマルチロボットコラボレーションに統合するフレームワークを提案する。より困難なロボットベンチマークタスクを提案し、既存のベンチマークと新しいタスクに関する我々のフレームワークを評価する。
参考スコア（独自算出の注目度）: 3.0067862210362284
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While large language models (LLMs) have shown great potential across various domains, their applications in robotics remain largely limited to static prompt-based behaviors and still face challenges in complex tasks under zero-shot or few-shot settings. Inspired by human metacognitive learning and creative problem-solving, we address this limitation by exploring a fundamental question: Can LLMs be empowered with metacognitive capabilities to reason, reflect, and create, thereby enhancing their ability to perform robotic tasks with minimal demonstrations? In this paper, we present a framework that integrates metacognitive learning into LLM-powered multi-robot collaboration. The system equips the LLM-powered robotic agents with a skill decomposition and self-reflection mechanism that identifies modular skills from prior tasks, reflects on failures in unseen task scenarios, and synthesizes effective new solutions. We propose a more challenging robotic benchmark task and evaluate our framework on the existing benchmark and the novel task. Experimental results show that our metacognitive learning framework significantly outperforms existing baselines. Moreover, we observe that the framework can generate solutions that differ from the ground truth yet still successfully complete the tasks. These findings support our hypothesis that metacognitive learning can foster creativity in robotic planning.
Abstract（参考訳）: 大規模言語モデル(LLM)は、様々な分野において大きな可能性を示しているが、ロボット工学におけるその応用は、静的なプロンプトベースの動作に限られており、ゼロショットや少数ショット設定下での複雑なタスクの課題に直面している。人間のメタ認知学習と創造的問題解決にインスパイアされた私たちは、基本的な疑問を探求することで、この制限に対処する。 LLMは、メタ認知能力によって、最小限のデモンストレーションでロボットタスクの実行能力を向上させることができるか? 本稿では,メタ認知学習をLLMによるマルチロボットコラボレーションに統合するフレームワークを提案する。このシステムは、LLMを利用するロボットエージェントに、従来のタスクからモジュラースキルを識別し、目に見えないタスクシナリオの失敗を反映し、効果的な新しいソリューションを合成する、スキル分解と自己回帰機構を装備する。より困難なロボットベンチマークタスクを提案し、既存のベンチマークと新しいタスクに関する我々のフレームワークを評価する。実験の結果,メタ認知学習の枠組みは既存のベースラインを著しく上回ることがわかった。さらに,本フレームワークは,基礎的真理と異なる解を生成できるが,タスクの完了には至っていないことも確認した。これらの知見は,メタ認知学習がロボット計画における創造性を育むことができるという仮説を支持している。

関連論文リスト

RoBridge: A Hierarchical Architecture Bridging Cognition and Execution for General Robotic Manipulation [90.81956345363355]
RoBridgeは、一般的なロボット操作のための階層的なインテリジェントアーキテクチャである。大規模事前学習型視覚言語モデル(VLM)に基づくハイレベル認知プランナー(HCP)で構成されている。強化学習の手続き的スキルを解き放ち、認知と実行のギャップを効果的に埋める。
論文参考訳（メタデータ） (2025-05-03T06:17:18Z)
A Call for New Recipes to Enhance Spatial Reasoning in MLLMs [85.67171333213301]
MLLM(Multimodal Large Language Models)は、一般的な視覚言語タスクにおいて印象的な性能を示す。近年の研究では、空間的推論能力の限界が明らかにされている。この空間的推論の欠如は、MLLMが物理的世界と効果的に相互作用する能力を著しく制限する。
論文参考訳（メタデータ） (2025-04-21T11:48:39Z)
MoLe-VLA: Dynamic Layer-skipping Vision Language Action Model via Mixture-of-Layers for Efficient Robot Manipulation [24.200547898713126]
MLLM(Multimodal Large Language Models)は、複雑な言語と視覚的データの理解に優れる。彼らの実世界の展開は、相当な計算とストレージの需要によって妨げられている。動的LDM層活性化のためのMixture-of-Layers Vision-Language-Action Model (MoLe) アーキテクチャを提案する。
論文参考訳（メタデータ） (2025-03-26T10:05:38Z)
Large Language Models as Natural Selector for Embodied Soft Robot Design [5.023206838671049]
本稿では,大規模言語モデルがソフトロボット設計の表現を学習できるかどうかを評価する新しいベンチマークであるRoboCrafter-QAを紹介する。実験の結果,これらのモデルが設計表現を学習する上で有望な能力を示す一方で,微妙な性能差を持つ設計の微妙な区別に苦慮していることが判明した。
論文参考訳（メタデータ） (2025-03-04T03:55:10Z)
Cognitive LLMs: Towards Integrating Cognitive Architectures and Large Language Models for Manufacturing Decision-making [51.737762570776006]
LLM-ACTRは、ヒトに適応し、多目的な意思決定を提供する新しいニューロシンボリックアーキテクチャである。我々のフレームワークは、ACT-Rの内部決定過程の知識を潜在神経表現として抽出し、組み込む。デザイン・フォー・マニュファクチャリング・タスクに関する我々の実験は、タスク性能の向上と基礎的意思決定能力の向上を両立させたものである。
論文参考訳（メタデータ） (2024-08-17T11:49:53Z)
WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks [85.95607119635102]
大型言語モデル(LLM)は人間のような知性を模倣することができる。 WorkArena++は、Webエージェントの計画、問題解決、論理的/論理的推論、検索、コンテキスト的理解能力を評価するように設計されている。
論文参考訳（メタデータ） (2024-07-07T07:15:49Z)
Look Before You Leap: Unveiling the Power of GPT-4V in Robotic Vision-Language Planning [32.045840007623276]
本稿では,ロボットビジョン・ランゲージ計画(ViLa)について紹介する。 ViLaは、知覚データを推論と計画プロセスに直接統合する。実ロボットとシミュレーション環境の両方で実施した評価は,既存のLCMプランナよりもViLaの方が優れていることを示す。
論文参考訳（メタデータ） (2023-11-29T17:46:25Z)
Large Language Models for Robotics: A Survey [40.76581696885846]
大規模言語モデル(LLM)は自然言語の処理と生成能力を有しており、ロボットとの効率的な対話と協調を促進する。本レビューは,ロボット制御,知覚,意思決定,経路計画といった重要な領域に対する,ロボット工学におけるLLMの応用と貢献を要約することを目的としている。
論文参考訳（メタデータ） (2023-11-13T10:46:35Z)
Language to Rewards for Robotic Skill Synthesis [37.21434094015743]
我々は,大規模言語モデル(LLM)を利用して,様々なロボットタスクを最適化し,達成可能な報酬パラメータを定義する新しいパラダイムを提案する。 LLMが生成する中間インタフェースとして報酬を用いることで、ハイレベルな言語命令と修正のギャップを、低レベルなロボット動作に効果的に埋めることができる。
論文参考訳（メタデータ） (2023-06-14T17:27:10Z)
Stabilizing Contrastive RL: Techniques for Robotic Goal Reaching from Offline Data [96.5899286619008]
自己指導型学習は、制御戦略を学ぶのに必要な人間のアノテーションとエンジニアリングの労力を減らす可能性がある。我々の研究は、強化学習(RL)自体が自己監督的な問題であることを示す先行研究に基づいている。コントラスト学習に基づく自己教師付きRLアルゴリズムは,実世界の画像に基づくロボット操作タスクを解くことができることを示す。
論文参考訳（メタデータ） (2023-06-06T01:36:56Z)
LLM as A Robotic Brain: Unifying Egocentric Memory and Control [77.0899374628474]
Embodied AIは、物理的または仮想的なエンボディメント(つまりロボット)を持つインテリジェントシステムの研究と開発に焦点を当てている。メモリとコントロールは、具体化されたシステムの2つの不可欠な部分であり、通常、それぞれをモデル化するために別々のフレームワークを必要とします。ロボット脳として大規模言語モデルを用いて,エゴセントリックな記憶と制御を統一するLLM-Brainという新しいフレームワークを提案する。
論文参考訳（メタデータ） (2023-04-19T00:08:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。