論文の概要: Point What You Mean: Visually Grounded Instruction Policy
- arxiv url: http://arxiv.org/abs/2512.18933v1
- Date: Mon, 22 Dec 2025 00:44:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.562279
- Title: Point What You Mean: Visually Grounded Instruction Policy
- Title(参考訳): 要点:視覚的に接地された教育方針
- Authors: Hang Yu, Juntu Zhao, Yufeng Liu, Kaiyu Li, Cheng Ma, Di Zhang, Yingdong Hu, Guang Chen, Junyuan Xie, Junliang Guo, Junqiao Zhao, Yang Gao,
- Abstract要約: Point-VLAは、言語命令を明示的な視覚的手がかりで拡張し、参照の曖昧さを解決するためのプラグアンドプレイポリシーである。
我々は,多種多様な実世界の参照タスクにおいてポイントVLAを評価し,テキストのみの命令VLAよりも一貫して強靭なパフォーマンスを観察する。
- 参考スコア(独自算出の注目度): 42.52502990975079
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models align vision and language with embodied control, but their object referring ability remains limited when relying solely on text prompt, especially in cluttered or out-of-distribution (OOD) scenes. In this study, we introduce the Point-VLA, a plug-and-play policy that augments language instructions with explicit visual cues (e.g., bounding boxes) to resolve referential ambiguity and enable precise object-level grounding. To efficiently scale visually grounded datasets, we further develop an automatic data annotation pipeline requiring minimal human effort. We evaluate Point-VLA on diverse real-world referring tasks and observe consistently stronger performance than text-only instruction VLAs, particularly in cluttered or unseen-object scenarios, with robust generalization. These results demonstrate that Point-VLA effectively resolves object referring ambiguity through pixel-level visual grounding, achieving more generalizable embodied control.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、視覚と言語を具体的制御と整合させるが、テキストプロンプトのみに依存する場合、オブジェクト参照能力は制限される。
本研究では,言語命令を明示的な視覚的手がかり(例えばバウンディングボックス)で拡張し,参照のあいまいさを解消し,正確なオブジェクトレベルのグラウンド化を可能にするプラグイン・アンド・プレイ・ポリシーであるPoint-VLAを紹介する。
視覚的に接地したデータセットを効率的にスケールするために、人間の労力を最小限に抑えた自動データアノテーションパイプラインをさらに開発する。
我々は,多種多様な実世界の参照タスクにおいてポイント-VLAを評価し,テキストのみの命令VLAよりも一貫して強靭なパフォーマンスを観察する。
これらの結果から,Point-VLAは画素レベルの視覚的接地によりオブジェクト参照の曖昧さを効果的に解決し,より一般化可能な具体化制御を実現することが示唆された。
関連論文リスト
- A Multimodal Depth-Aware Method For Embodied Reference Understanding [56.30142869506262]
Embodied Reference Understandingでは、言語命令とポインティングキューの両方に基づいて、視覚的なシーンで対象のオブジェクトを識別する必要がある。
本稿では,データ拡張,深度マップのモダリティ,深度認識決定モジュールを共同で活用する新しいERUフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-09T14:32:21Z) - Hierarchical Instruction-aware Embodied Visual Tracking [35.73851196966425]
User-Centric Embodied Visual Tracking (UC-EVT)は、強化学習に基づくモデルにおいて、新しい課題を提示している。
我々は,テキスト空間目標を仲介として利用する命令理解と行動生成を橋渡しする,テキストbfインストラクションを意識した身体的視覚追跡(HIEVT)エージェントを提案する。
論文 参考訳(メタデータ) (2025-05-27T04:36:26Z) - Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
現在、視覚言語モデル(VLM)には、状況を考慮した特定の物体をシーン内でローカライズする学習という、基本的な認知能力がないことが分かっています。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - OLIVE: Object Level In-Context Visual Embeddings [8.168219870640318]
テキスト内ビジュアルオブジェクトベクトルを用いた大規模言語モデルを提案する。
これにより、画像パッチ機能の長い配列を融合する必要がなくなり、トレーニングが大幅にスピードアップする。
実験の結果,提案手法は競合参照対象分類とキャプション性能を実現する。
論文 参考訳(メタデータ) (2024-06-02T21:36:31Z) - Learning to Localize Objects Improves Spatial Reasoning in Visual-LLMs [38.02017186215372]
大きな言語モデル(LLM)を視覚領域タスクに統合し、視覚的なLLM(V-LLM)を実現することにより、視覚言語タスクにおける例外的なパフォーマンスを実現している。
しかし、既存のV-LLMは空間的推論と局所化認識が弱い。
画像空間座標に基づく微調整目標が空間認識をV-LLMに注入する方法について検討する。
論文 参考訳(メタデータ) (2024-04-11T03:09:34Z) - Towards Addressing the Misalignment of Object Proposal Evaluation for
Vision-Language Tasks via Semantic Grounding [36.03994217853856]
Vision-Language (VL)タスクで生成されたオブジェクト提案のパフォーマンスは、現在利用可能なすべてのアノテーションで評価されている。
我々の研究は、この現象の研究として役立ち、セマンティックグラウンドディングの有効性を探求し、その効果を緩和する。
提案手法は一貫性があり,画像キャプションの指標と人間のアノテーションによって選択されたアノテーションとのアライメントが大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2023-09-01T02:19:41Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - PEVL: Position-enhanced Pre-training and Prompt Tuning for
Vision-language Models [127.17675443137064]
PEVLを導入し、明示的なオブジェクト位置モデリングによる視覚言語モデルの事前学習と迅速なチューニングを促進する。
PEVLは、統一言語モデリングフレームワークにおいて、離散化されたオブジェクトの位置と言語を再構成する。
PEVLは,表現理解や句の接頭など,位置感性のあるタスクに対して,最先端のパフォーマンスを実現することができることを示す。
論文 参考訳(メタデータ) (2022-05-23T10:17:53Z) - Unsupervised Vision-Language Parsing: Seamlessly Bridging Visual Scene
Graphs with Language Structures via Dependency Relationships [17.930724926012264]
教師なしの方法で共同視覚言語構造を誘導することを目的とした新しいタスクを導入する。
私たちの目標は、視覚的なシーングラフと言語依存ツリーをシームレスにブリッジすることにあります。
そこで我々は, 粗い構造を創出する自動アライメント手法を提案する。
論文 参考訳(メタデータ) (2022-03-27T09:51:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。