論文の概要: VLM-FO1: Bridging the Gap Between High-Level Reasoning and Fine-Grained Perception in VLMs
- arxiv url: http://arxiv.org/abs/2509.25916v1
- Date: Tue, 30 Sep 2025 08:10:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.472448
- Title: VLM-FO1: Bridging the Gap Between High-Level Reasoning and Fine-Grained Perception in VLMs
- Title(参考訳): VLM-FO1:VLMにおける高レベル推論と微粒化知覚のギャップを埋める
- Authors: Peng Liu, Haozhan Shen, Chunxin Fang, Zhicheng Sun, Jiajia Liao, Tiancheng Zhao,
- Abstract要約: VLM(Vision-Language Models)は、高レベルのシーン理解において優れるが、精密なローカライゼーションを必要とする微粒な知覚タスクに重点を置いている。
VLM-FO1は、オブジェクト中心の知覚を堅牢な特徴検索タスクに再フレーミングすることで、この制限を克服する新しいフレームワークである。
本手法は,プリトレーニング済みのVLMと統合したプラグイン・アンド・プレイモジュールとして動作する。
- 参考スコア(独自算出の注目度): 13.486495756813078
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) excel at high-level scene understanding but falter on fine-grained perception tasks requiring precise localization. This failure stems from a fundamental mismatch, as generating exact numerical coordinates is a challenging task for language-centric architectures. In this paper, we introduce VLM-FO1, a novel framework that overcomes this limitation by reframing object-centric perception from a brittle coordinate generation problem into a robust feature retrieval task. Our method operates as a plug-and-play module that integrates with any pre-trained VLM. It leverages a Hybrid Fine-grained Region Encoder (HFRE), featuring a dual vision encoder, to generate powerful region tokens rich in both semantic and spatial detail. A token-based referencing system then enables the LLM to seamlessly reason about and ground language in these specific visual regions. Experiments show that VLM-FO1 achieves state-of-the-art performance across a diverse suite of benchmarks, demonstrating exceptional capabilities in object grounding, region generational understanding, and visual region reasoning. Crucially, our two-stage training strategy ensures that these perception gains are achieved without compromising the base model's general visual understanding capabilities. VLM-FO1 establishes an effective and flexible paradigm for building perception-aware VLMs, bridging the gap between high-level reasoning and fine-grained visual grounding.
- Abstract(参考訳): VLM(Vision-Language Models)は、高レベルのシーン理解において優れるが、精密なローカライゼーションを必要とする微粒な知覚タスクに重点を置いている。
この失敗は、正確な数値座標を生成することが言語中心アーキテクチャの課題であるため、根本的なミスマッチに起因する。
本稿では,この制限を克服する新しいフレームワークであるVLM-FO1を紹介する。
本手法は,プリトレーニング済みのVLMと統合したプラグイン・アンド・プレイモジュールとして動作する。
デュアルビジョンエンコーダを備えたHFRE(Hybrid Fine-fine Region Encoder)を利用して、意味的および空間的詳細の両方に富んだ強力なリージョントークンを生成する。
トークンベースの参照システムにより、LLMはこれらの特定の視覚領域において、シームレスに言語を推論できる。
実験により、VLM-FO1は様々なベンチマークで最先端のパフォーマンスを達成し、オブジェクトグラウンド、領域生成の理解、視覚領域の推論における例外的な能力を示した。
重要なことは、我々の2段階のトレーニング戦略は、ベースモデルの一般的な視覚的理解能力を損なうことなく、これらの知覚が達成されることを保証する。
VLM-FO1は、認識を意識したVLMを構築するための効果的で柔軟なパラダイムを確立し、高レベルの推論ときめ細かいビジュアルグラウンドのギャップを埋める。
関連論文リスト
- Hierarchical Contextual Grounding LVLM: Enhancing Fine-Grained Visual-Language Understanding with Robust Grounding [0.3262230127283452]
Hierarchical Contextual Grounding LVLM(HCG-LVLM)は、人間の粗い認知処理を模倣する新しいアーキテクチャである。
本モデルでは, より精度が高く, 幻覚を著しく低減し, 階層設計の有効性を検証した。
論文 参考訳(メタデータ) (2025-08-23T09:57:52Z) - Event-Priori-Based Vision-Language Model for Efficient Visual Understanding [13.540340702321911]
Event-Priori-Based Vision-Language Model (EP-VLM)は、VLM推論効率を改善する。
EP-VLMはダイナミックイベントビジョンから派生した動作先をVLM効率を高めるために使用する。
論文 参考訳(メタデータ) (2025-06-09T10:45:35Z) - Perceive Anything: Recognize, Explain, Caption, and Segment Anything in Images and Videos [53.723410664944566]
本稿では,画像やビデオの総合的な領域レベルの視覚的理解のためのフレームワークであるPerceive Anything Model(PAM)を提案する。
提案手法は,Large Language Models (LLMs) を統合することで,強力なセグメンテーションモデルSAM 2を拡張し,オブジェクトセグメンテーションの同時実現を可能にする。
SAM 2のリッチな視覚的特徴をマルチモーダルトークンに効率的に変換するために、Semantic Perceiverという重要なコンポーネントが導入されている。
論文 参考訳(メタデータ) (2025-06-05T17:51:39Z) - CoF: Coarse to Fine-Grained Image Understanding for Multi-modal Large Language Models [16.91226496250909]
マルチモーダルな理解は、粗いものから細かいものへと、2つの段階に分けられる。
第1段階では,MLLMに回答のほぼ面積を特定するよう促す。
第2段階では、視覚的なプロンプトエンジニアリングにより、関連する領域に対するモデルの焦点をさらに強化する。
論文 参考訳(メタデータ) (2024-12-22T05:42:40Z) - Elevating Visual Perception in Multimodal LLMs with Auxiliary Embedding Distillation [109.5893580175657]
近年,MLLMの開発における標準的な実践は,視覚エンコーダの機能をLLMに供給し,自然言語による指導を施すことである。
このアプローチは、しばしばモデルが言語理解に傾き、データに存在するリッチな視覚知覚信号を損なう。
本稿では,視覚知識をエキスパートビジョンエンコーダからLLMの隠れ表現に注入する最初のアプローチであるVisPer-LMを提案する。
論文 参考訳(メタデータ) (2024-12-12T18:55:18Z) - TWIST & SCOUT: Grounding Multimodal LLM-Experts by Forget-Free Tuning [54.033346088090674]
TWIST と SCOUT は,事前学習したMLLM に視覚的接地能力を持たせるフレームワークである。
モデルを効果的に微調整するために,SCOUTと呼ばれる高品質な合成データセットを生成する。
このデータセットは、ステップバイステップのマルチモーダル推論プロセスを記述する、豊富な監視信号を提供する。
論文 参考訳(メタデータ) (2024-10-14T13:35:47Z) - LION : Empowering Multimodal Large Language Model with Dual-Level Visual
Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。
既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。
本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:56:44Z) - GLIPv2: Unifying Localization and Vision-Language Understanding [161.1770269829139]
本稿では,ローカライズタスクとビジョンランゲージ(VL)理解タスクの両方を提供する,基底VL理解モデルGLIPv2を提案する。
GLIPv2は、ローカライゼーション事前トレーニングとビジョン言語事前トレーニングを3つの事前トレーニングタスクで統合する。
一つのGLIPv2モデルが,様々なローカライゼーションおよび理解タスクにおいて,SoTAに近い性能を達成することを示す。
論文 参考訳(メタデータ) (2022-06-12T20:31:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。