論文の概要: MARVL: Multi-Stage Guidance for Robotic Manipulation via Vision-Language Models
- arxiv url: http://arxiv.org/abs/2602.15872v1
- Date: Wed, 28 Jan 2026 11:25:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 12:01:13.678743
- Title: MARVL: Multi-Stage Guidance for Robotic Manipulation via Vision-Language Models
- Title(参考訳): MARVL:視覚言語モデルによるロボットマニピュレーションのための多段階指導
- Authors: Xunlan Zhou, Xuanlin Chen, Shaowei Zhang, Xiangkun Li, ShengHua Wan, Xiaohai Hu, Yuan Lei, Le Gan, De-chuan Zhan,
- Abstract要約: 視覚言語モデルを用いたロボット操作のためのMARVL-Multi-stAgeガイダンスを提案する。
MARVL は空間的および意味的整合性のための VLM を微調整し、タスクを多段階のサブタスクに分解する。
経験的に、MARVLはMeta-Worldベンチマークで既存のVLM-rewardメソッドよりも優れており、スパース・リワード操作タスクにおいて、より優れたサンプル効率と堅牢性を示している。
- 参考スコア(独自算出の注目度): 42.20216799801145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Designing dense reward functions is pivotal for efficient robotic Reinforcement Learning (RL). However, most dense rewards rely on manual engineering, which fundamentally limits the scalability and automation of reinforcement learning. While Vision-Language Models (VLMs) offer a promising path to reward design, naive VLM rewards often misalign with task progress, struggle with spatial grounding, and show limited understanding of task semantics. To address these issues, we propose MARVL-Multi-stAge guidance for Robotic manipulation via Vision-Language models. MARVL fine-tunes a VLM for spatial and semantic consistency and decomposes tasks into multi-stage subtasks with task direction projection for trajectory sensitivity. Empirically, MARVL significantly outperforms existing VLM-reward methods on the Meta-World benchmark, demonstrating superior sample efficiency and robustness on sparse-reward manipulation tasks.
- Abstract(参考訳): 高い報酬関数を設計することは、効率的なロボット強化学習(RL)にとって重要な要素である。
しかし、最も密集した報酬は手動の工学に依存しており、強化学習のスケーラビリティと自動化を根本的に制限している。
VLM(Vision-Language Models)は、デザインに報酬を与えるための有望な道を提供するが、VLMの報酬は、しばしばタスクの進行、空間的な接地との闘い、タスクのセマンティクスの限られた理解を示す。
これらの問題に対処するために,視覚言語モデルを用いたロボット操作のためのMARVL-Multi-stAgeガイダンスを提案する。
MARVL は空間的および意味的整合性のための VLM を微調整し、タスクを多段階のサブタスクに分解する。
経験的に、MARVLはMeta-Worldベンチマークで既存のVLM-rewardメソッドよりも優れており、スパース・リワード操作タスクにおいて、より優れたサンプル効率と堅牢性を示している。
関連論文リスト
- dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought [66.78110237549087]
VLA(Vision-Language-Action)モデルは、ロボット工学の次世代パラダイムとして登場しつつある。
単一システムにおける視覚認識,言語推論,ロボット制御を統一する拡散型VLAであるdVLAを紹介する。
論文 参考訳(メタデータ) (2025-09-30T02:36:11Z) - ROSA: Harnessing Robot States for Vision-Language and Action Alignment [24.426285156386715]
VLM(Vision-Language Models)は、エンドツーエンドのロボット制御において大きな進歩を遂げた。
本稿では,ロボットの状態推定を利用して視覚言語と行動空間のアライメントを改善する新しいトレーニングパラダイムROSAを提案する。
論文 参考訳(メタデータ) (2025-06-16T16:34:20Z) - Hierarchical Language Models for Semantic Navigation and Manipulation in an Aerial-Ground Robotic System [8.88014241557266]
不均一なマルチロボットシステムは、協調的なハイブリッド協調を必要とする複雑なタスクにおいて大きな可能性を示す。
静的またはタスク固有のモデルに依存する既存のメソッドは、様々なタスクや動的環境にまたがる一般化性に欠けることが多い。
本稿では,大規模言語モデル (LLM) と微調整型視覚言語モデル (VLM) を統合した階層型マルチモーダルフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-05T13:27:41Z) - MoLe-VLA: Dynamic Layer-skipping Vision Language Action Model via Mixture-of-Layers for Efficient Robot Manipulation [24.200547898713126]
MLLM(Multimodal Large Language Models)は、複雑な言語と視覚的データの理解に優れる。
彼らの実世界の展開は、相当な計算とストレージの需要によって妨げられている。
動的LDM層活性化のためのMixture-of-Layers Vision-Language-Action Model (MoLe) アーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-03-26T10:05:38Z) - Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。
ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文 参考訳(メタデータ) (2024-11-07T09:17:50Z) - Affordance-Guided Reinforcement Learning via Visual Prompting [51.361977466993345]
Keypoint-based Affordance Guidance for Improvements (KAGI) は、視覚言語モデル(VLM)によって形成される報酬を自律的なRLに活用する手法である。
自然言語記述によって指定された多様な実世界の操作タスクにおいて、KAGIは自律的なRLのサンプル効率を改善し、30Kのオンライン微調整ステップでタスク完了を成功させる。
論文 参考訳(メタデータ) (2024-07-14T21:41:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。