論文の概要: Zooming without Zooming: Region-to-Image Distillation for Fine-Grained Multimodal Perception
- arxiv url: http://arxiv.org/abs/2602.11858v1
- Date: Thu, 12 Feb 2026 12:00:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.795826
- Title: Zooming without Zooming: Region-to-Image Distillation for Fine-Grained Multimodal Perception
- Title(参考訳): ズームしないズーム:細粒化マルチモーダル知覚のための領域-画像蒸留
- Authors: Lai Wei, Liangbo He, Jun Lan, Lingzhong Dong, Yutong Cai, Siyuan Li, Huijia Zhu, Weiqiang Wang, Linghe Kong, Yue Wang, Zhuosheng Zhang, Weiran Huang,
- Abstract要約: Region-to-Image Distillationは、推論時ツールからトレーニング時プリミティブへのズームを変換する。
我々は,複数のきめ細かい知覚ベンチマークにおいて,モデルが先行する性能を実現することを示す。
- 参考スコア(独自算出の注目度): 43.08943307183693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) excel at broad visual understanding but still struggle with fine-grained perception, where decisive evidence is small and easily overwhelmed by global context. Recent "Thinking-with-Images" methods alleviate this by iteratively zooming in and out regions of interest during inference, but incur high latency due to repeated tool calls and visual re-encoding. To address this, we propose Region-to-Image Distillation, which transforms zooming from an inference-time tool into a training-time primitive, thereby internalizing the benefits of agentic zooming into a single forward pass of an MLLM. In particular, we first zoom in to micro-cropped regions to let strong teacher models generate high-quality VQA data, and then distill this region-grounded supervision back to the full image. After training on such data, the smaller student model improves "single-glance" fine-grained perception without tool use. To rigorously evaluate this capability, we further present ZoomBench, a hybrid-annotated benchmark of 845 VQA data spanning six fine-grained perceptual dimensions, together with a dual-view protocol that quantifies the global--regional "zooming gap". Experiments show that our models achieve leading performance across multiple fine-grained perception benchmarks, and also improve general multimodal cognition on benchmarks such as visual reasoning and GUI agents. We further discuss when "Thinking-with-Images" is necessary versus when its gains can be distilled into a single forward pass. Our code is available at https://github.com/inclusionAI/Zooming-without-Zooming.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、広義の視覚的理解に優れるが、決定的な証拠は小さく、世界的文脈に圧倒される。
最近の"Thinking-with-Images"手法は、推論中の関心領域を反復的にズームアウトすることでこれを緩和するが、ツールコールの繰り返しや視覚的再エンコーディングによるレイテンシが高くなる。
そこで本研究では,推論時ツールからトレーニング時プリミティブにズームを変換し,エージェントズームの利点をMLLMの1つのフォワードパスに内部化する領域対画像蒸留法を提案する。
特に、まずマイクロクロッピング領域にズームインして、強力な教師モデルに高品質なVQAデータを生成させ、次に、この領域に根ざした監督を全画像に再現する。
このようなデータをトレーニングした後、より小さな学生モデルはツールを使わずに"シングル・グランス"の微粒化知覚を改善する。
さらに,6次元の微細な知覚次元にまたがる845 VQAデータのハイブリットアノテートベンチマークであるZoomBenchと,グローバル領域の「ゾーミングギャップ」を定量化するデュアルビュープロトコルを提案する。
実験により,複数の微粒な知覚ベンチマークを対象とし,視覚的推論やGUIエージェントなどのベンチマーク上での一般的なマルチモーダル認知を改善した。
我々はさらに、"Thinking-with-Images"がいつ必要か、その利得を1つの前方通過に蒸留できるかについても論じる。
私たちのコードは、https://github.com/inclusionAI/Zooming-without-Zooming.comで利用可能です。
関連論文リスト
- Training Multi-Image Vision Agents via End2End Reinforcement Learning [51.81337984526068]
我々は、エンドツーエンドの強化学習によって訓練されたオープンソースの視覚エージェントであるIMAgentを提案する。
マルチエージェントシステムを利用することで、困難かつ視覚的にリッチなマルチイメージQAペアを生成する。
我々は、視覚的反射と確認のための2つの特別なツールを開発し、モデルが積極的に画像コンテンツに注意を向けることを可能にする。
論文 参考訳(メタデータ) (2025-12-05T10:02:38Z) - ZoomEye: Enhancing Multimodal LLMs with Human-Like Zooming Capabilities through Tree-Based Image Exploration [39.2654025469784]
我々は,視覚レベルの推論に適した訓練不要でモデルに依存しない木探索アルゴリズムZoom Eyeを提案する。
このアルゴリズムにより、MLLMは、タスク関連視覚的エビデンスを探索するために、ルートから葉ノードへナビゲートすることで、人間の様のズーム動作をシミュレートすることができる。
論文 参考訳(メタデータ) (2024-11-25T02:15:30Z) - Beyond LLaVA-HD: Diving into High-Resolution Large Multimodal Models [44.437693135170576]
我々は、高度化タスク付きLMM、局所画像圧縮、グローバルエキスパートの混合(SliME)を提案する。
我々は,異なるタスクにおいて異なるアダプタが優れているという観察に基づいて,アダプタの混合を用いてグローバルビューからコンテキスト情報を抽出する。
提案手法は,200万のトレーニングデータのみを用いて,様々なベンチマークにおいて先行的な性能を実現する。
論文 参考訳(メタデータ) (2024-06-12T17:59:49Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - Extending global-local view alignment for self-supervised learning with remote sensing imagery [1.5192294544599656]
自己教師付きモデルは、大量のラベルのないデータに対して擬似ラベルを生成するプレテキストタスクを定式化することにより、一般的な特徴表現を取得する。
DINOに触発されて、リモートセンシング画像(SSLRS)を用いた自己教師型学習のための2つのプレテキストタスクを定式化した。
我々は,DINOを拡張し,単一の固定サイズではなく,様々な大きさの作物の局所的なビューを利用するDINO-MCを提案する。
論文 参考訳(メタデータ) (2023-03-12T14:24:10Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - MAF: Multimodal Alignment Framework for Weakly-Supervised Phrase
Grounding [74.33171794972688]
本稿では,詳細な視覚表現と視覚認識言語表現を活用することで,句オブジェクトの関連性をモデル化するアルゴリズムを提案する。
広く採用されているFlickr30kデータセットで実施された実験は、既存の弱教師付き手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-10-12T00:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。