論文の概要: CVSearch: Empowering Multimodal LLMs with Cognitive Visual Search for High-Resolution Image Perception
- arxiv url: http://arxiv.org/abs/2605.23655v1
- Date: Fri, 22 May 2026 14:07:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.382776
- Title: CVSearch: Empowering Multimodal LLMs with Cognitive Visual Search for High-Resolution Image Perception
- Title(参考訳): CVSearch:高解像度画像認識のための認知視覚探索によるマルチモーダルLLMの強化
- Authors: Liupeng Li, Haoqian Kang, Zhenyu Lu, Jinpeng Wang, Bin Chen, Ke Chen, Yaowei Wang,
- Abstract要約: CVSearchは、Assess-then-Searchワークフローを介して検索戦略をスケジュールする、トレーニング不要適応フレームワークである。
CVSearchはまず,グローバル情報が不十分な場合に専門家支援検索を起動する。
HRベンチマーク実験により,CVSearchは最先端の精度を実現し,検索効率を大幅に向上することが示された。
- 参考スコア(独自算出の注目度): 41.63801808635565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-resolution (HR) image perception presents a key bottleneck for multimodal large language models (MLLMs). While visual search offers a promising solution, existing methods struggle with the trade-off between coverage and efficiency. Visual expert-assisted search is efficient but prone to blind spots when proposals fail, whereas scan-based search guarantees coverage at the cost of computational redundancy and semantic fragmentation. To address this dilemma, we introduce CVSearch, a training-free adaptive framework that dynamically schedules search strategies via an Assess-then-Search workflow. Specifically, CVSearch first invokes expert-assisted search when global information is insufficient, and only triggers a novel semantic-aware scanning mechanism upon failure. Distinct from rigid grid partitioning, this efficient scanning paradigm incorporates Semantic Guided Adaptive Patching to decompose images into semantically consistent regions, effectively mitigating object fragmentation. Furthermore, we devise a Dynamic Bottom-Up Search strategy driven by a Visual Complexity prior to enable efficient and precise iterative exploration of local details. Extensive experiments on HR benchmarks demonstrate that CVSearch achieves state-of-the-art accuracy while substantially improving search efficiency. Code is released at https://github.com/liliupeng28/ICML26-CVSearch.
- Abstract(参考訳): 高分解能(HR)画像認識は、マルチモーダル大言語モデル(MLLM)において重要なボトルネックとなる。
ビジュアル検索は有望なソリューションを提供するが、既存の手法はカバレッジと効率のトレードオフに苦慮している。
ビジュアルエキスパートによる検索は効率的だが、提案が失敗すると盲点になる傾向があり、一方スキャンベースの検索は計算冗長性とセマンティックフラグメンテーションのコストでカバレッジを保証する。
このジレンマに対処するために,Assess-then-Searchワークフローを介して動的に検索戦略をスケジュールする,トレーニング不要適応フレームワークCVSearchを紹介する。
具体的には、CVSearchは、グローバル情報が不十分な場合に最初に専門家支援検索を起動し、障害時に新しいセマンティック・アウェア・スキャニング機構を起動する。
厳密なグリッド分割とは別として、この効率的なスキャンパラダイムは、セマンティックガイド適応パッチ(Semantic Guided Adaptive Patching)を組み込んで、イメージを意味的に一貫した領域に分解し、オブジェクトのフラグメンテーションを効果的に緩和する。
さらに,視覚的複雑度によって駆動される動的ボトムアップ検索戦略を考案し,局所的な詳細を効率的かつ高精度に探索する手法を提案する。
HRベンチマークの大規模な実験により,CVSearchは最先端の精度を実現し,検索効率を大幅に向上することが示された。
コードはhttps://github.com/liliupeng28/ICML26-CVSearchで公開されている。
関連論文リスト
- Fast-then-Fine: A Two-Stage Framework with Multi-Granular Representation for Cross-Modal Retrieval in Remote Sensing [13.181195595944603]
リモートセンシング(RS)画像テキスト検索は、大規模なRS画像を理解する上で重要な役割を果たす。
既存の手法は、検索効率の低下につながる複雑なクロスモーダル相互作用に依存するか、大規模な視覚言語モデルの事前学習に依存する。
本稿では,検索をテキストに依存しないリコールステージと,微粒なアライメントのためのテキスト誘導リランクステージに分解するFTF(Fast-then-fine)2段階検索フレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-22T10:50:38Z) - Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models [79.77807330964576]
Vision-DeepResearchシステムは複雑なビジュアルテキストのファクトフィンディングに検索エンジンを使用する。
既存のベンチマークはビジュアル検索中心ではない。
2,000のVQAインスタンスからなるVision-DeepResearchベンチマーク(VDR-Bench)を構築した。
論文 参考訳(メタデータ) (2026-02-02T14:53:11Z) - Pixel-Grounded Retrieval for Knowledgeable Large Multimodal Models [58.46663983451155]
PixSearchは、地域レベルの認識と検索強化推論を統合する、エンドツーエンドのLMM(Large Multimodal Model)である。
エンコーディング中、PixSearchは検索をトリガーする検索>トークンを出力し、クエリのモダリティ(テキスト、画像、リージョン)を選択し、ビジュアルクエリとして直接機能するピクセルレベルのマスクを生成する。
エゴセントリックでエンティティ中心のVQAベンチマークでは、PixSearchは事実整合性と一般化を大幅に改善する。
論文 参考訳(メタデータ) (2026-01-27T00:46:08Z) - Generalized Contrastive Learning for Universal Multimodal Retrieval [53.70202081784898]
クロスモーダル検索モデル(例えばCLIP)は、融合した画像テキストのモダリティからなるキーを検索することで、劣化したパフォーマンスを示す。
本稿では,新たなデータセットキュレーションを必要とせずに,マルチモーダル検索性能を向上させる新しい損失定式化である汎用コントラスト学習(GCL)を提案する。
論文 参考訳(メタデータ) (2025-09-30T01:25:04Z) - VectorSearch: Enhancing Document Retrieval with Semantic Embeddings and
Optimized Search [1.0411820336052784]
本稿では、高度なアルゴリズム、埋め込み、インデックス化技術を活用して洗練された検索を行うVectorSearchを提案する。
提案手法は,革新的なマルチベクタ探索操作と高度な言語モデルによる検索の符号化を利用して,検索精度を大幅に向上させる。
実世界のデータセットの実験では、VectorSearchがベースラインのメトリクスを上回っている。
論文 参考訳(メタデータ) (2024-09-25T21:58:08Z) - ALADIN: Distilling Fine-grained Alignment Scores for Efficient
Image-Text Matching and Retrieval [51.588385824875886]
クロスモーダル検索は、与えられたクエリテキストまたはバイヴァーサに関連する画像を見つけることで構成される。
近年の多くの手法が画像テキストマッチング問題に対する効果的な解法を提案しており、主に近年の大規模視覚言語(VL)トランスフォーマーネットワークを用いている。
本稿では,有効性と効率のギャップを埋めるため,ALADIN(ALign And Distill Network)を提案する。
論文 参考訳(メタデータ) (2022-07-29T16:01:48Z) - Tasks Integrated Networks: Joint Detection and Retrieval for Image
Search [99.49021025124405]
多くの現実世界の探索シナリオ(例えばビデオ監視)では、オブジェクトは正確に検出または注釈付けされることはめったにない。
まず、エンド・ツー・エンド統合ネット(I-Net)を紹介します。
さらに,2つの新しいコントリビューションを行うDC-I-Netという改良されたI-Netを提案する。
論文 参考訳(メタデータ) (2020-09-03T03:57:50Z) - Fine-grained Visual Textual Alignment for Cross-Modal Retrieval using
Transformer Encoders [14.634046503477979]
本稿ではTransformer Reasoning and Alignment Network(TERAN)という新しいアプローチを提案する。
TERANは、画像と文の基礎となるコンポーネント間のきめ細かい一致を強制する。
MS-COCO 1Kテストセットでは,画像と文検索タスクでそれぞれ5.7%と3.5%の改善が得られた。
論文 参考訳(メタデータ) (2020-08-12T11:02:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。