論文の概要: GranViT: A Fine-Grained Vision Model With Autoregressive Perception For MLLMs
- arxiv url: http://arxiv.org/abs/2510.21501v1
- Date: Thu, 23 Oct 2025 12:33:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.502822
- Title: GranViT: A Fine-Grained Vision Model With Autoregressive Perception For MLLMs
- Title(参考訳): GranViT:MLLMの自己回帰認識機能を備えたファイングラインドビジョンモデル
- Authors: Guanghao Zheng, Bowen Shi, Mingxing Xu, Ruoyu Sun, Peisen Zhao, Zhibo Zhang, Wenrui Dai, Junni Zou, Hongkai Xiong, Xiaopeng Zhang, Qi Tian,
- Abstract要約: GranViTは、微細な特徴抽出と大規模言語モデルへのセマンティックアライメントを統合するビジョントランスフォーマーである。
最初にGran-29Mを構築した。これは200万の自然画像とOCR画像と1億5000万以上の高品質な領域レベルのアノテーションを組み合わせたデータセットである。
我々は,Gran-29Mの微粒化アノテーションを利用して,事前学習とキャプション・ツー・バウンディングボックス回帰における視覚エンコーダの局所的視覚表現を強化する。
- 参考スコア(独自算出の注目度): 114.48317313878538
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision encoders are indispensable for allowing impressive performance of Multi-modal Large Language Models (MLLMs) in vision language tasks such as visual question answering and reasoning. However, existing vision encoders focus on global image representations but overlook fine-grained regional analysis. They are limited in fine grained perception due to the scarcity of fine grained annotated data and the lack of a fine grained pre-training paradigm. In this paper, we propose GranViT, a novel Vision Transformer that integrates fine-grained feature extraction with semantic alignment to Large Language Models (LLMs) via region level autoregressive training. We first construct Gran-29M, a dataset comprising 2million natural and OCR images paired with over 180 million high-quality region-level annotations, to enable large scale fine grained pretraining. Consequently, we develop a pretraining-adaptation framework along with a self distillation mechanism to train fine-grained GranViT on Gran-29M. We sufficiently exploit the fine-grained annotations from Gran-29M to resort to bounding-box-to-caption regression to enhance localized visual representation of the vision encoder in the pretraining and caption-to-bounding-box regression to improve vision feature utilization and localization for LLM in the adaptation. We further incorporate a self distillation mechanism that imposes explicit localization constraints on the vision encoder to strengthen its regional reasoning capability. Extensive experiments show that GranViT surpasses existing vision encoders and attains strong transferability to varying LLMs. Remarkably, it achieves state-of-the-art results on fine-grained recognition, multimodal VQA, and OCR understanding.
- Abstract(参考訳): ビジョンエンコーダは、視覚的質問応答や推論などの視覚言語タスクにおいて、MLLM(Multi-modal Large Language Models)の印象的なパフォーマンスを実現するために不可欠である。
しかし、既存の視覚エンコーダは、グローバルな画像表現に重点を置いているが、きめ細かい地域分析を見落としている。
微粒化アノテートデータの不足と微粒化事前学習パラダイムの欠如により、微粒化知覚に制限されている。
本稿では,Large Language Models (LLMs) とのセマンティックアライメントを,地域レベルの自己回帰学習を通じて,きめ細かな特徴抽出と統合した新しい視覚変換器であるGranViTを提案する。
まず,2000万枚の自然画像とOCR画像と1億5000万以上の高品質な地域レベルのアノテーションを組み合わせたデータセットであるGran-29Mを構築し,大規模できめ細かい事前学習を可能にする。
そこで我々は,Gran-29Mでグラニュラー粒径のGranViTを訓練するための自己蒸留機構とともに,事前学習適応フレームワークを開発した。
我々は,Gran-29Mの微粒化アノテーションを十分に活用して,プリトレーニングおよびキャプション・トゥ・バウンディングボックス回帰における視覚エンコーダの局所的視覚表現を強化することで,LLMの視覚特徴利用とローカライゼーションを改善する。
さらに,視覚エンコーダの局所化制約を明示する自己蒸留機構を導入し,その地域的推論能力を強化する。
広汎な実験により、GranViTは既存のビジョンエンコーダを超越し、様々なLSMへの強い転送性が得られることが示された。
注目すべきは、細粒度認識、マルチモーダルVQA、OCR理解における最先端の結果である。
関連論文リスト
- VLM-FO1: Bridging the Gap Between High-Level Reasoning and Fine-Grained Perception in VLMs [13.486495756813078]
VLM(Vision-Language Models)は、高レベルのシーン理解において優れるが、精密なローカライゼーションを必要とする微粒な知覚タスクに重点を置いている。
VLM-FO1は、オブジェクト中心の知覚を堅牢な特徴検索タスクに再フレーミングすることで、この制限を克服する新しいフレームワークである。
本手法は,プリトレーニング済みのVLMと統合したプラグイン・アンド・プレイモジュールとして動作する。
論文 参考訳(メタデータ) (2025-09-30T08:10:56Z) - Efficient Multi-modal Large Language Models via Visual Token Grouping [55.482198808206284]
高解像度の画像やビデオは、彼らの広く普及するための障壁となる。
MLLMにおける視覚トークンの圧縮は、推論コストを削減するための有望なアプローチとして現れている。
本稿では,事前学習した視覚エンコーダの能力を利用して類似画像セグメントをグループ化する,新たなグループ化機構であるVisToGを紹介する。
論文 参考訳(メタデータ) (2024-11-26T09:36:02Z) - Fine-Grained Verifiers: Preference Modeling as Next-token Prediction in Vision-Language Alignment [57.0121616203175]
本研究では,視覚言語アライメントを改善するための細粒度検証器として,モデル自身のビジュアルエンコーダを利用する新たな自己アライメント手法であるFiSAOを提案する。
ビジョンエンコーダからのトークンレベルのフィードバックを活用することで、FiSAOは視覚言語アライメントを大幅に改善する。
論文 参考訳(メタデータ) (2024-10-18T03:34:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。