論文の概要: Intelligent Image Search Algorithms Fusing Visual Large Models
- arxiv url: http://arxiv.org/abs/2511.19920v1
- Date: Tue, 25 Nov 2025 04:54:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.276958
- Title: Intelligent Image Search Algorithms Fusing Visual Large Models
- Title(参考訳): 視覚的大モデルを用いた知的画像探索アルゴリズム
- Authors: Kehan Wang, Tingqiong Cui, Yang Zhang, Yu Chen, Shifeng Wu, Zhenzhang Li,
- Abstract要約: 本稿では,オブジェクト検出を視覚的大モデルで融合する,インテリジェントな画像検索フレームワークであるDetVLMを提案する。
車両部品のデータセットの実験では、DetVLMは94.82%という最先端の総合的な精度を達成している。
また、ドライバーマスク着用のゼロショット検索では94.95%、州検索では90%以上の精度が達成されている。
- 参考スコア(独自算出の注目度): 6.560867914001199
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-grained image retrieval, which aims to find images containing specific object components and assess their detailed states, is critical in fields like security and industrial inspection. However, conventional methods face significant limitations: manual features (e.g., SIFT) lack robustness; deep learning-based detectors (e.g., YOLO) can identify component presence but cannot perform state-specific retrieval or zero-shot search; Visual Large Models (VLMs) offer semantic and zero-shot capabilities but suffer from poor spatial grounding and high computational cost, making them inefficient for direct retrieval. To bridge these gaps, this paper proposes DetVLM, a novel intelligent image search framework that synergistically fuses object detection with VLMs. The framework pioneers a search-enhancement paradigm via a two-stage pipeline: a YOLO detector first conducts efficient, high-recall component-level screening to determine component presence; then, a VLM acts as a recall-enhancement unit, performing secondary verification for components missed by the detector. This architecture directly enables two advanced capabilities: 1) State Search: Guided by task-specific prompts, the VLM refines results by verifying component existence and executing sophisticated state judgments (e.g., "sun visor lowered"), allowing retrieval based on component state. 2) Zero-shot Search: The framework leverages the VLM's inherent zero-shot capability to recognize and retrieve images containing unseen components or attributes (e.g., "driver wearing a mask") without any task-specific training. Experiments on a vehicle component dataset show DetVLM achieves a state-of-the-art overall retrieval accuracy of 94.82\%, significantly outperforming detection-only baselines. It also attains 94.95\% accuracy in zero-shot search for driver mask-wearing and over 90\% average accuracy in state search tasks.
- Abstract(参考訳): 特定の対象成分を含む画像を発見し、その詳細状態を評価することを目的としたきめ細かい画像検索は、セキュリティや産業検査などの分野において重要である。
しかし、従来の手法では手動の特徴(例:SIFT)は堅牢性に欠けており、ディープラーニングベースの検出器(例:YOLO)はコンポーネントの存在を識別できるが、状態固有の検索やゼロショット検索はできない。
これらのギャップを埋めるために,本研究では,オブジェクト検出とVLMを相乗的に融合する,インテリジェントな画像検索フレームワークであるDetVLMを提案する。
このフレームワークは、2段階のパイプラインを介して探索強化パラダイムを開拓し、まず、YOLO検出器がコンポーネントの存在を判断するために、効率よく高リコールのコンポーネントレベルのスクリーニングを行い、次に、VLMがリコールエンハンスメントユニットとして機能し、検出器が見逃したコンポーネントの二次的な検証を行う。
このアーキテクチャは、直接的に2つの高度な機能を可能にします。
1)状態探索: タスク固有のプロンプトによって導かれるVLMは、コンポーネントの存在を検証し、洗練された状態判断(例えば、sun visor lowered)を実行することで結果を洗練し、コンポーネントの状態に基づいた検索を可能にする。
2)ゼロショット検索: このフレームワークは、VLM固有のゼロショット機能を利用して、タスク固有のトレーニングをすることなく、見えないコンポーネントや属性(例えば、マスクを着用しているドライバー)を含むイメージを認識し、検索する。
車両コンポーネントデータセットの実験では、DetVLMは94.82 %の最先端の総合的な検索精度を達成し、検出のみのベースラインを著しく上回っている。
また、ドライバーマスク着用のゼロショットサーチでは94.95 %、州検索では90% %以上の精度を達成している。
関連論文リスト
- X2-DFD: A framework for eXplainable and eXtendable Deepfake Detection [55.77552681618732]
X2-DFDは、eXplainableおよびeXtendableフレームワークであり、ディープフェイク検出のためのマルチモーダルな多言語モデル(MLLM)に基づいている。
最初の段階であるモデル特徴評価は、MLLMの偽造関係の特徴の検出可能性を体系的に評価する。
2番目のステージであるExplainable dataset Constructionは、Strong Feature StrengtheningとWeak Feature Supplementingの2つの重要なモジュールで構成されている。
3番目のステージであるファインチューニングと推論では、構築されたデータセット上でMLLMを微調整し、最終的な検出と説明のためにデプロイする。
論文 参考訳(メタデータ) (2024-10-08T15:28:33Z) - Few-shot Oriented Object Detection with Memorable Contrastive Learning in Remote Sensing Images [11.217630579076237]
リモートセンシングの分野では、FSOD(Few-shot Object Detection)が注目されている。
本稿では,Few-shot Oriented Object Detection with Memorable Contrastive Learning (FOMC) という,リモートセンシングのための新しいFSOD法を提案する。
具体的には、従来の水平有界ボックスの代わりに指向的有界ボックスを用いて、任意指向の空中オブジェクトのより優れた特徴表現を学習する。
論文 参考訳(メタデータ) (2024-03-20T08:15:18Z) - Exploring Robust Features for Few-Shot Object Detection in Satellite
Imagery [17.156864650143678]
従来の2段階アーキテクチャに基づく数発の物体検出器を開発した。
大規模な事前訓練モデルを使用して、クラス参照の埋め込みやプロトタイプを構築する。
課題と稀なオブジェクトを含む2つのリモートセンシングデータセットの評価を行う。
論文 参考訳(メタデータ) (2024-03-08T15:20:27Z) - Single-Shot and Multi-Shot Feature Learning for Multi-Object Tracking [55.13878429987136]
そこで本研究では,異なる目標に対して,単発と複数発の特徴を共同で学習するための,シンプルで効果的な2段階特徴学習パラダイムを提案する。
提案手法は,DanceTrackデータセットの最先端性能を達成しつつ,MOT17およびMOT20データセットの大幅な改善を実現している。
論文 参考訳(メタデータ) (2023-11-17T08:17:49Z) - Query-based Hard-Image Retrieval for Object Detection at Test Time [10.63460618121976]
問合せに基づくハードイメージ検索タスクとして「ハード」な画像を見つけるという問題を再考する。
我々の手法は完全にポストホックであり、地平線アノテーションは必要とせず、効率的なモンテカルロ推定に依存している。
我々は、広く使われているRetinaNet、Faster-RCNN、Mask-RCNN、Cascade Mask-RCNNオブジェクト検出器を用いて、ランキングと分類タスクの結果を提供する。
論文 参考訳(メタデータ) (2022-09-23T12:33:31Z) - Activation to Saliency: Forming High-Quality Labels for Unsupervised
Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。
トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。
本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文 参考訳(メタデータ) (2021-12-07T11:54:06Z) - One-Shot Object Affordance Detection in the Wild [76.46484684007706]
Affordance Detectionは、画像内のオブジェクトの潜在的なアクション可能性を特定することを指す。
我々は、人間の行動目的を推定し、それを転送して、すべての候補画像から共通価格を検出するワンショットアフォーダンス検出ネットワーク(OSAD-Net)を考案する。
複雑なシーンと豊富なアノテーションによって、当社のPADv2データセットは、アベイランス検出メソッドをベンチマークするためのテストベッドとして使用することができます。
論文 参考訳(メタデータ) (2021-08-08T14:53:10Z) - Should I Look at the Head or the Tail? Dual-awareness Attention for
Few-Shot Object Detection [20.439719842851744]
両方向の空間的関係が支持とクエリーのイメージを横断して捉える,Dual-Awareness-Attention (DAnA) を提案する。
我々のDAnAコンポーネントは、既存の様々なオブジェクト検出ネットワークに適用可能であり、特定のセマンティクスに注意を払ってFSOD性能を向上させる。
実験結果は、DAnAがCOCOベンチマークで(48%および125%比較的)オブジェクト検出性能を大幅に向上させることを示しています。
論文 参考訳(メタデータ) (2021-02-24T09:17:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。