論文の概要: FineViT: Progressively Unlocking Fine-Grained Perception with Dense Recaptions
- arxiv url: http://arxiv.org/abs/2603.17326v1
- Date: Wed, 18 Mar 2026 03:39:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.50177
- Title: FineViT: Progressively Unlocking Fine-Grained Perception with Dense Recaptions
- Title(参考訳): FineViT:Dense Recaption機能付きファイングラインド・パーセプションの段階的アンロック
- Authors: Peisen Zhao, Xiaopeng Zhang, Mingxing Xu, Ruoyu Sun, Zewei Du, Dunzheng Wang, Guanghao Zheng, Haohang Xu, Zhibo Zhang, Yuhang Zhang, Yi Ai, Lin Liu, Qi Tian,
- Abstract要約: FineViTは、微粒な知覚を解き放つために特別に設計された、新しい視覚エンコーダである。
我々はファインビジョン・エンコーダ(ファインビジョン・エンコーダ)を紹介した。
- 参考スコア(独自算出の注目度): 52.366937743884314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Multimodal Large Language Models (MLLMs) have experienced rapid advancements, their visual encoders frequently remain a performance bottleneck. Conventional CLIP-based encoders struggle with dense spatial tasks due to the loss of visual details caused by low-resolution pretraining and the reliance on noisy, coarse web-crawled image-text pairs. To overcome these limitations, we introduce FineViT, a novel vision encoder specifically designed to unlock fine-grained perception. By replacing coarse web data with dense recaptions, we systematically mitigate information loss through a progressive training paradigm.: first, the encoder is trained from scratch at a high native resolution on billions of global recaptioned image-text pairs, establishing a robust, detail rich semantic foundation. Subsequently, we further enhance its local perception through LLM alignment, utilizing our curated FineCap-450M dataset that comprises over $450$ million high quality local captions. Extensive experiments validate the effectiveness of the progressive strategy. FineViT achieves state-of-the-art zero-shot recognition and retrieval performance, especially in long-context retrieval, and consistently outperforms multimodal visual encoders such as SigLIP2 and Qwen-ViT when integrated into MLLMs. We hope FineViT could serve as a powerful new baseline for fine-grained visual perception.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は急速に進歩してきたが、視覚エンコーダはしばしばパフォーマンスのボトルネックのままである。
従来のCLIPベースのエンコーダは、低分解能事前学習による視覚的詳細の喪失と、粗いウェブクロース画像テキスト対に依存するため、密集した空間的タスクに苦労する。
これらの制限を克服するため、我々はファインヴィジョン・エンコーダを導入した。
粗いWebデータを高密度な再適応に置き換えることで、情報損失をプログレッシブトレーニングパラダイムを通じて体系的に軽減する。
第一に、エンコーダは、数十億のグローバル再カプセル化イメージテキストペアに対して、高いネイティブ解像度でゼロからトレーニングされ、堅牢で詳細なリッチなセマンティック基盤を確立します。
その後,LLMアライメントにより,高品質なローカルキャプションを4億5000万ドル以上で提供するFinCap-450Mデータセットを利用して,その局所認識をさらに強化する。
広範囲な実験により、進歩戦略の有効性が検証された。
FineViTは、特に長文検索において最先端のゼロショット認識と検索性能を実現し、MLLMに統合された場合、SigLIP2やQwen-ViTのようなマルチモーダル視覚エンコーダよりも一貫して優れる。
FineViTが、きめ細かい視覚知覚のための強力な新しいベースラインになることを期待している。
関連論文リスト
- Towards Lossless Ultimate Vision Token Compression for VLMs [11.485425012979052]
Lossless Ultimate Vision tokens Compression (LUVC)フレームワークが提案されている。
LUVCは、言語モデルの最終層で完全に除去されるまで、ビジュアルトークンを圧縮する。
実験の結果,LUVCは言語モデルにおいて2つの高速化推定を達成し,精度の劣化を無視できることがわかった。
論文 参考訳(メタデータ) (2025-12-09T15:40:13Z) - CoViPAL: Layer-wise Contextualized Visual Token Pruning for Large Vision-Language Models [75.88232735646018]
LVLM(Large Vision-Language Models)は、画像やビデオから抽出されたテキストトークンとビジョントークンからなるマルチモーダル入力を処理する。
既存の手法は冗長な視覚トークンを創りだそうとしており、視覚表現のかなりの冗長性を明らかにしている。
我々は,LVLMで処理される前に冗長な視覚トークンを予測・削除するために,Plug-and-Play Pruning Module (PPM) を用いるレイヤワイズなコンテキスト対応型視覚トークンプルーニング手法であるCoViPALを提案する。
論文 参考訳(メタデータ) (2025-08-24T07:47:00Z) - VITRIX-CLIPIN: Enhancing Fine-Grained Visual Understanding in CLIP via Instruction Editing Data and Long Captions [16.90061119174727]
CLIP-IN(CLIP-IN)は、2つのコアイノベーションを通じてCLIPの微粒な認識を促進する新しいフレームワークである。
まず、画像操作用に設計された命令編集データセットを、ハードネガティブな画像テキストペアのユニークな情報源として活用する。
第二に、CLIP-INは長いキャプションを組み込み、回転する位置エンコーディングを利用して、標準のCLIPでしばしば見逃されるリッチなセマンティックコンテキストをキャプチャする。
論文 参考訳(メタデータ) (2025-08-04T11:57:10Z) - Revisit What You See: Disclose Language Prior in Vision Tokens for LVLM Decoding [6.612630497074871]
LVLM(Large Vision-Language Models)は、視覚認識と言語理解を統合することで、マルチモーダルタスクにおける強力なパフォーマンスを実現する。
テキスト生成のガイドとして視覚トークンを参照するトレーニング不要な復号法であるReVisiTを提案する。
論文 参考訳(メタデータ) (2025-06-11T08:46:55Z) - VScan: Rethinking Visual Token Reduction for Efficient Large Vision-Language Models [57.2662376527586]
VScanは2段階のビジュアルトークン削減フレームワークである。
1)グローバルスキャンとローカルスキャンを視覚的エンコーディング中にマージすることで,(2)言語モデルの中間層にプルーニングを導入する。
VScanはプリフィルの2.91$times$スピードアップとFLOPの10$times$ダウンを実現し、オリジナルのパフォーマンスの95.4%を維持した。
論文 参考訳(メタデータ) (2025-05-28T17:59:08Z) - Incorporating Visual Experts to Resolve the Information Loss in
Multimodal Large Language Models [121.83413400686139]
本稿では,MLLMの視覚知覚能力を向上させるために,知識の混合強化機構を提案する。
本稿では,マルチタスクエンコーダとビジュアルツールを既存のMLLM訓練と推論パイプラインに組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T02:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。