論文の概要: ViReSkill: Vision-Grounded Replanning with Skill Memory for LLM-Based Planning in Lifelong Robot Learning
- arxiv url: http://arxiv.org/abs/2509.24219v1
- Date: Mon, 29 Sep 2025 02:58:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.70955
- Title: ViReSkill: Vision-Grounded Replanning with Skill Memory for LLM-Based Planning in Lifelong Robot Learning
- Title(参考訳): ViReSkill:生涯ロボット学習におけるLLMプランニングのためのスキルメモリを用いたビジョングラウンドリプランニング
- Authors: Tomoyuki Kagaya, Subramanian Lakshmi, Anbang Ye, Thong Jing Yuan, Jayashree Karlekar, Sugiri Pranata, Natsuki Murakami, Akira Kinose, Yang You,
- Abstract要約: LLM(Large Language Models)とVLM(Vision-Language Models)は、最小限のデータから知識豊富なプランニングを約束する。
本稿では,ビジュアルグラウンドのリプランニングと,蓄積と再利用のためのスキルメモリを組み合わせたフレームワークであるViReSkillを提案する。
成功すると、実行された計画は再利用可能なスキルとして保存され、LLM/VLMへの追加の呼び出しなしで将来の遭遇で再生される。
- 参考スコア(独自算出の注目度): 8.52039319539042
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Robots trained via Reinforcement Learning (RL) or Imitation Learning (IL) often adapt slowly to new tasks, whereas recent Large Language Models (LLMs) and Vision-Language Models (VLMs) promise knowledge-rich planning from minimal data. Deploying LLMs/VLMs for motion planning, however, faces two key obstacles: (i) symbolic plans are rarely grounded in scene geometry and object physics, and (ii) model outputs can vary for identical prompts, undermining execution reliability. We propose ViReSkill, a framework that pairs vision-grounded replanning with a skill memory for accumulation and reuse. When a failure occurs, the replanner generates a new action sequence conditioned on the current scene, tailored to the observed state. On success, the executed plan is stored as a reusable skill and replayed in future encounters without additional calls to LLMs/VLMs. This feedback loop enables autonomous continual learning: each attempt immediately expands the skill set and stabilizes subsequent executions. We evaluate ViReSkill on simulators such as LIBERO and RLBench as well as on a physical robot. Across all settings, it consistently outperforms conventional baselines in task success rate, demonstrating robust sim-to-real generalization.
- Abstract(参考訳): Reinforcement Learning (RL) や Imitation Learning (IL) を通じて訓練されたロボットはしばしば新しいタスクにゆっくりと適応するが、最近のLarge Language Models (LLM) やVision-Language Models (VLM) は最小限のデータから知識豊富なプランニングを約束する。
しかし、動作計画のためのLLM/VLMの展開には、2つの重要な障害がある。
一 図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図形図
(ii)モデル出力は同一のプロンプトに対して変化し、実行信頼性を損なう。
本稿では,ビジュアルグラウンドのリプランニングと,蓄積と再利用のためのスキルメモリを組み合わせたフレームワークであるViReSkillを提案する。
障害が発生した場合、リプランナは、観測状態に合わせて、現在のシーンに条件付けられた新しいアクションシーケンスを生成する。
成功すると、実行された計画は再利用可能なスキルとして保存され、LLM/VLMへの追加の呼び出しなしで将来の遭遇で再生される。
このフィードバックループは、自律的な連続学習を可能にし、各試みは直ちにスキルセットを拡張し、その後の実行を安定化させる。
LIBERO や RLBench などのシミュレータや物理ロボット上での ViReSkill の評価を行った。
すべての設定において、タスク成功率の従来のベースラインを一貫して上回り、堅牢なsim-to-realの一般化を示す。
関連論文リスト
- Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。
ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文 参考訳(メタデータ) (2024-11-07T09:17:50Z) - Wonderful Team: Zero-Shot Physical Task Planning with Visual LLMs [0.0]
Wonderful Teamは、ゼロショットでハイレベルなロボット計画を実行するためのフレームワークだ。
実世界のセマンティックおよび物理的計画タスクにおけるWonderful Teamのパフォーマンスは、しばしば別々のビジョンシステムに依存するメソッドを超えることが示される。
論文 参考訳(メタデータ) (2024-07-26T21:18:57Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。
まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。
このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z) - Plan-Seq-Learn: Language Model Guided RL for Solving Long Horizon Robotics Tasks [50.27313829438866]
Plan-Seq-Learn (PSL) は、抽象言語と学習した低レベル制御の間のギャップを埋めるためにモーションプランニングを使用するモジュラーアプローチである。
PSLは85%以上の成功率、言語ベース、古典的、エンドツーエンドのアプローチを達成している。
論文 参考訳(メタデータ) (2024-05-02T17:59:31Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - EgoPlan-Bench: Benchmarking Multimodal Large Language Models for Human-Level Planning [84.6451394629312]
実世界のシナリオにおけるMLLMの計画能力を評価するベンチマークであるEgoPlan-Benchを紹介する。
EgoPlan-Benchは、人間レベルのタスクプランニングを実現するためのMLLMの改善のかなりの範囲を浮き彫りにする。
また,EgoPlan-Bench上でのモデル性能を効果的に向上する特殊命令チューニングデータセットであるEgoPlan-ITを提案する。
論文 参考訳(メタデータ) (2023-12-11T03:35:58Z) - Lifelong Robot Learning with Human Assisted Language Planners [24.66094264866298]
そこで本研究では,LLMベースのプランナを用いて新たなスキルを問合せし,これらのスキルを厳密なオブジェクト操作のためのデータと時間効率でロボットに教える手法を提案する。
本システムでは,将来的な課題に新たに獲得したスキルを再利用し,オープンワールドの可能性と生涯学習の可能性を実証する。
論文 参考訳(メタデータ) (2023-09-25T17:45:55Z) - DoReMi: Grounding Language Model by Detecting and Recovering from Plan-Execution Misalignment [10.322491116030825]
DoReMiは、計画と実行間のミスアライメントの検出とリカバリを可能にする。
パイプラインは、低レベルの実行を監視し、特定の計画実行ミスアライメントが発生した場合、タイムリなリカバリを可能にします。
論文 参考訳(メタデータ) (2023-07-01T12:51:02Z) - Reactive Long Horizon Task Execution via Visual Skill and Precondition
Models [59.76233967614774]
シミュレーションで学習したモデルを用いて、単純なタスクプランナの構成要素をグラウンド化することで、見知らぬロボットタスクを達成できるシミュレート・トゥ・リアル・トレーニングのアプローチについて述べる。
シミュレーションでは91.6%から98%,実世界の成功率は10%から80%に増加した。
論文 参考訳(メタデータ) (2020-11-17T15:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。