論文の概要: Bring My Cup! Personalizing Vision-Language-Action Models with Visual Attentive Prompting
- arxiv url: http://arxiv.org/abs/2512.20014v1
- Date: Tue, 23 Dec 2025 03:13:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.731055
- Title: Bring My Cup! Personalizing Vision-Language-Action Models with Visual Attentive Prompting
- Title(参考訳): ヴィジュアル・ランゲージ・アクション・モデルとビジュアル・アテンティブ・プロンプティング
- Authors: Sangoh Lee, Sangwoo Mo, Wook-Shin Han,
- Abstract要約: Visual Attentive Prompting (VAP) は、凍結したビジョン・ランゲージ・アクションモデルに選択的注意を払って装備する、トレーニング不要の知覚アダプタである。
VAPは、成功率と正しいオブジェクト操作の両方において、一般的なポリシーとトークン学習ベースラインを一貫して上回る。
- 参考スコア(独自算出の注目度): 15.173629384871013
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Vision-Language-Action (VLA) models generalize well to generic instructions, they struggle with personalized commands such as "bring my cup", where the robot must act on one specific instance among visually similar objects. We study this setting of manipulating personal objects, in which a VLA must identify and control a user-specific object unseen during training using only a few reference images. To address this challenge, we propose Visual Attentive Prompting (VAP), a simple-yet-effective training-free perceptual adapter that equips frozen VLAs with top-down selective attention. VAP treats the reference images as a non-parametric visual memory, grounds the personal object in the scene through open-vocabulary detection and embedding-based matching, and then injects this grounding as a visual prompt by highlighting the object and rewriting the instruction. We construct two simulation benchmarks, Personalized-SIMPLER and Personalized-VLABench, and a real-world tabletop benchmark to evaluate personalized manipulation across multiple robots and tasks. Experiments show that VAP consistently outperforms generic policies and token-learning baselines in both success rate and correct-object manipulation, helping to bridge the gap between semantic understanding and instance-level control.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは一般的な命令によく似ていますが、ロボットが視覚的に類似したオブジェクトの特定のインスタンスで動作しなければならない"bring my cup"のようなパーソナライズされたコマンドに苦労しています。
本稿では,VLAが参照画像のみを用いて,トレーニング中に見つからないユーザ固有のオブジェクトを識別し,制御しなければならない,個人オブジェクトを操作するこの設定について検討する。
この課題に対処するために,凍結したVLAにトップダウンの選択的な注意を払って装備する,単純なyet効果のトレーニングレスパーセプティブアダプタであるVisual Attentive Prompting (VAP)を提案する。
VAPは、参照画像を非パラメトリック視覚記憶として扱い、オープンボキャブラリ検出と埋め込みベースのマッチングを通じてシーン内の個人オブジェクトをグラウンド化し、オブジェクトをハイライトし、命令を書き直すことで、このグラウンドを視覚的プロンプトとして注入する。
我々は、Personalized-SIMPLERとPersonalized-VLABenchの2つのシミュレーションベンチマークと、複数のロボットやタスク間でパーソナライズされた操作を評価する現実世界のテーブルトップベンチマークを構築した。
実験によると、VAPは成功率と正しいオブジェクト操作の両方において、一般的なポリシとトークン学習ベースラインを一貫して上回り、セマンティック理解とインスタンスレベルのコントロールのギャップを埋める助けとなる。
関連論文リスト
- Point What You Mean: Visually Grounded Instruction Policy [42.52502990975079]
Point-VLAは、言語命令を明示的な視覚的手がかりで拡張し、参照の曖昧さを解決するためのプラグアンドプレイポリシーである。
我々は,多種多様な実世界の参照タスクにおいてポイントVLAを評価し,テキストのみの命令VLAよりも一貫して強靭なパフォーマンスを観察する。
論文 参考訳(メタデータ) (2025-12-22T00:44:19Z) - Utilizing Vision-Language Models as Action Models for Intent Recognition and Assistance [2.2893865000399938]
本稿では,視覚言語モデル (VLM) とテキストのみの言語モデル (LLM) によるGUIDERの拡張について述べる。
ビジョンパイプラインは、候補対象の作物をVLMに供給し、オペレータのプロンプトが与えられた場合、その関連性を評価する。
組み合わせた信念がしきい値を超えると、自律性が変化し、ロボットは所望の領域に移動し、所望の物体を回収することができる。
論文 参考訳(メタデータ) (2025-08-14T22:19:09Z) - ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs [98.27348724529257]
ViCrit (Visual Caption Hallucination Critic) は、VLMを訓練し、人間の手書き画像キャプションの段落に挿入された微妙で合成的な視覚幻覚をローカライズするRLプロキシタスクである。
ViCrit Taskでトレーニングされたモデルは、さまざまなビジョン言語モデルベンチマークで大幅に向上している。
論文 参考訳(メタデータ) (2025-06-11T19:16:54Z) - OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction [95.6266030753644]
Vision-Language-Action(VLA)モデルは、視覚的な観察と言語指示に基づいてロボット行動を予測することを目的としている。
既存のアプローチでは、視覚的特徴と言語的特徴が独立して下流ポリシーに供給されるため、微調整済みの視覚言語モデル(VLM)が必要である。
本稿では,テキスト認識による視覚的特徴抽出によって既存のアライメントを活用する新しいVLAアーキテクチャOTTERを提案する。
論文 参考訳(メタデータ) (2025-03-05T18:44:48Z) - Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
現在、視覚言語モデル(VLM)には、状況を考慮した特定の物体をシーン内でローカライズする学習という、基本的な認知能力がないことが分かっています。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary
Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。
適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。
実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-11-02T03:38:02Z) - Object-and-Action Aware Model for Visual Language Navigation [70.33142095637515]
VLN(Vision-and-Language Navigation)は、比較的一般的な自然言語命令をロボットエージェントアクションに変換する必要があるという点で特徴的である。
本稿では、これらの2種類の自然言語に基づく命令を別々に処理するオブジェクト・アンド・アクション・アウェア・モデル(OAAM)を提案する。
これにより、各プロセスは、オブジェクト中心/アクション中心の命令を、自身の視覚的知覚/行動指向に柔軟に一致させることができる。
論文 参考訳(メタデータ) (2020-07-29T06:32:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。