論文の概要: Experience is the Best Teacher: Grounding VLMs for Robotics through Self-Generated Memory
- arxiv url: http://arxiv.org/abs/2507.16713v1
- Date: Tue, 22 Jul 2025 15:48:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:14.192956
- Title: Experience is the Best Teacher: Grounding VLMs for Robotics through Self-Generated Memory
- Title(参考訳): 体験は最高の教師: 自己生成記憶によるロボティクスのためのグラウンドングVLM
- Authors: Guowei Lan, Kaixian Qu, René Zurbrügg, Changan Chen, Christopher E. Mower, Haitham Bou-Ammar, Marco Hutter,
- Abstract要約: 本稿では,視覚言語モデル(VLM)を現実体験の自己生成記憶を構築することで,ロボットに基盤付ける枠組みを提案する。
ExpTeachでは、VLMは自律的にアクションを計画し、結果を検証し、失敗を反映し、クローズドループでロボットの動作に適応する。
実験では、4つの困難なロボット作業において、リフレクションは成功率を36%から84%に改善することを示した。
- 参考スコア(独自算出の注目度): 16.53566194731369
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) have been widely adopted in robotics to enable autonomous planning. However, grounding VLMs, originally trained on internet data, to diverse real-world robots remains a challenge. This paper presents ExpTeach, a framework that grounds VLMs to physical robots by building a self-generated memory of real-world experiences. In ExpTeach, the VLM autonomously plans actions, verifies outcomes, reflects on failures, and adapts robot behaviors in a closed loop. The self-generated experiences during this process are then summarized into a long-term memory, enabling retrieval of learned knowledge to guide future tasks via retrieval-augmented generation (RAG). Additionally, ExpTeach enhances the spatial understanding of VLMs with an on-demand image annotation module. In experiments, we show that reflection improves success rates from 36% to 84% on four challenging robotic tasks and observe the emergence of intelligent object interactions, including creative tool use. Across extensive tests on 12 real-world scenarios (including eight unseen ones), we find that grounding with long-term memory boosts single-trial success rates from 22% to 80%, demonstrating the effectiveness and generalizability of ExpTeach.
- Abstract(参考訳): 視覚言語モデル(VLM)は自律的な計画を可能にするためにロボット工学で広く採用されている。
しかし、もともとインターネットデータに基づいて訓練されたVLMを、さまざまな現実世界のロボットに接地することは、依然として課題である。
本稿では,実世界の体験を自己生成するメモリを構築することで,VLMを物理ロボットに基盤とするフレームワークExpTeachを提案する。
ExpTeachでは、VLMは自律的にアクションを計画し、結果を検証し、失敗を反映し、クローズドループでロボットの動作に適応する。
このプロセスにおける自己生成体験は、長期記憶にまとめられ、学習知識の検索により、検索強化世代(RAG)を介して将来のタスクを導くことができる。
さらにExpTeachは、オンデマンド画像アノテーションモジュールでVLMの空間的理解を強化する。
実験では、4つの困難なロボット作業において、リフレクションは成功率を36%から84%に改善し、創造ツールの使用を含むインテリジェントなオブジェクトインタラクションの出現を観察する。
12の現実シナリオ(目に見えない8つのシナリオを含む)に対する広範囲なテストの結果、長期記憶による基礎づけは、単座の成功率を22%から80%に向上させ、ExpTeachの有効性と一般化性を実証することを発見した。
関連論文リスト
- Robo2VLM: Visual Question Answering from Large-Scale In-the-Wild Robot Manipulation Datasets [15.349107660229356]
VLM(Vision-Language Models)は,インターネット規模の画像テキストコーパスを通じて,実世界の知識と一般的な推論能力を取得する。
本稿では,VLMのためのVQA(Visual Question Answering)データセット生成フレームワークであるRobo2VLMを紹介する。
実物176kのロボット軌道から463の異なるシーンと3,396のロボット操作タスクをカバーし、684,710の質問を回答した。
論文 参考訳(メタデータ) (2025-05-21T13:42:52Z) - Efficient Reinforcement Learning by Guiding Generalist World Models with Non-Curated Data [32.7248232143849]
オフラインデータの活用は、オンライン強化学習(RL)のサンプル効率を向上させるための有望な方法である
本稿では、報酬のない、混合品質の豊富な非キュレートデータを利用して、オフラインからオフラインへのRLのための使用可能なデータのプールを拡張し、複数の実施形態にまたがって収集する。
論文 参考訳(メタデータ) (2025-02-26T20:34:29Z) - Towards General Purpose Robots at Scale: Lifelong Learning and Learning to Use Memory [0.0]
このテーマは、記憶と生涯学習という、長い時間をかけて動くロボットにとっての2つの重要な課題に対処することに焦点を当てている。
まず,連続世界ベンチマークにおける最先端性能を実現するトラジェクトリベースディープ生成再生法であるt-DGRを紹介する。
第2に,人間の実演を利用してエージェントに効果的なメモリ利用を教えるフレームワークを開発する。
論文 参考訳(メタデータ) (2024-12-28T21:13:48Z) - Commonsense Reasoning for Legged Robot Adaptation with Vision-Language Models [81.55156507635286]
脚のついたロボットは、様々な環境をナビゲートし、幅広い障害を克服することができる。
現在の学習手法は、人間の監督を伴わずに、予期せぬ状況の長い尾への一般化に苦慮することが多い。
本稿では,VLM-Predictive Control (VLM-PC) というシステムを提案する。
論文 参考訳(メタデータ) (2024-07-02T21:00:30Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。
まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。
このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z) - LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning [50.99807031490589]
LLARVAは,ロボット学習タスク,シナリオ,環境を統一するための,新しい指導指導法で訓練されたモデルである。
我々は,Open X-Embodimentデータセットから8.5Mの画像-視覚的トレースペアを生成し,モデルを事前学習する。
実験によって強い性能が得られ、LLARVAは現代のいくつかのベースラインと比較してよく機能することを示した。
論文 参考訳(メタデータ) (2024-06-17T17:55:29Z) - Towards Generalist Robot Learning from Internet Video: A Survey [56.621902345314645]
本調査は,ビデオ(LfV)の新たな学習分野を体系的に検討する。
まず,ビデオデータにおける分散シフトや動作ラベルの欠如といった基本的なLfV課題について概説する。
次に、大規模インターネットビデオから知識を抽出し、LfV課題を克服し、ビデオインフォームドトレーニングによるロボット学習を改善するための現在の手法を包括的にレビューする。
論文 参考訳(メタデータ) (2024-04-30T15:57:41Z) - Look Before You Leap: Unveiling the Power of GPT-4V in Robotic
Vision-Language Planning [32.045840007623276]
本稿では,ロボットビジョン・ランゲージ計画(ViLa)について紹介する。
ViLaは、知覚データを推論と計画プロセスに直接統合する。
実ロボットとシミュレーション環境の両方で実施した評価は,既存のLCMプランナよりもViLaの方が優れていることを示す。
論文 参考訳(メタデータ) (2023-11-29T17:46:25Z) - LLM as A Robotic Brain: Unifying Egocentric Memory and Control [77.0899374628474]
Embodied AIは、物理的または仮想的なエンボディメント(つまりロボット)を持つインテリジェントシステムの研究と開発に焦点を当てている。
メモリとコントロールは、具体化されたシステムの2つの不可欠な部分であり、通常、それぞれをモデル化するために別々のフレームワークを必要とします。
ロボット脳として大規模言語モデルを用いて,エゴセントリックな記憶と制御を統一するLLM-Brainという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-19T00:08:48Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - SQUIRL: Robust and Efficient Learning from Video Demonstration of
Long-Horizon Robotic Manipulation Tasks [8.756012472587601]
深層強化学習(RL)は複雑な操作タスクを学習するために用いられる。
RLは、ロボットが大量の現実世界の経験を収集する必要がある。
SQUIRLは、単一のビデオデモしか持たない、新しいが関連するロングホライゾンタスクを実行する。
論文 参考訳(メタデータ) (2020-03-10T20:26:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。