論文の概要: Vision-Language Model for Object Detection and Segmentation: A Review and Evaluation
- arxiv url: http://arxiv.org/abs/2504.09480v1
- Date: Sun, 13 Apr 2025 08:28:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-23 07:00:55.085345
- Title: Vision-Language Model for Object Detection and Segmentation: A Review and Evaluation
- Title(参考訳): 物体検出とセグメンテーションのための視覚言語モデル:レビューと評価
- Authors: Yongchao Feng, Yajie Liu, Shuai Yang, Wenrui Cai, Jinqing Zhang, Qiqi Zhan, Ziyue Huang, Hongxi Yan, Qiao Wan, Chenguang Liu, Junzhe Wang, Jiahui Lv, Ziqi Liu, Tengyuan Shi, Qingjie Liu, Yunhong Wang,
- Abstract要約: VLM(Vision-Language Model)は、OV(Open-Vocabulary)オブジェクトの検出とセグメンテーションタスクにおいて広く採用されている。
それらはOV関連タスクを約束しているにもかかわらず、従来のビジョンタスクの有効性は評価されていない。
- 参考スコア(独自算出の注目度): 38.20492321295552
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Model (VLM) have gained widespread adoption in Open-Vocabulary (OV) object detection and segmentation tasks. Despite they have shown promise on OV-related tasks, their effectiveness in conventional vision tasks has thus far been unevaluated. In this work, we present the systematic review of VLM-based detection and segmentation, view VLM as the foundational model and conduct comprehensive evaluations across multiple downstream tasks for the first time: 1) The evaluation spans eight detection scenarios (closed-set detection, domain adaptation, crowded objects, etc.) and eight segmentation scenarios (few-shot, open-world, small object, etc.), revealing distinct performance advantages and limitations of various VLM architectures across tasks. 2) As for detection tasks, we evaluate VLMs under three finetuning granularities: \textit{zero prediction}, \textit{visual fine-tuning}, and \textit{text prompt}, and further analyze how different finetuning strategies impact performance under varied task. 3) Based on empirical findings, we provide in-depth analysis of the correlations between task characteristics, model architectures, and training methodologies, offering insights for future VLM design. 4) We believe that this work shall be valuable to the pattern recognition experts working in the fields of computer vision, multimodal learning, and vision foundation models by introducing them to the problem, and familiarizing them with the current status of the progress while providing promising directions for future research. A project associated with this review and evaluation has been created at https://github.com/better-chao/perceptual_abilities_evaluation.
- Abstract(参考訳): VLM(Vision-Language Model)は、OV(Open-Vocabulary)オブジェクトの検出とセグメンテーションタスクにおいて広く採用されている。
それらはOV関連タスクを約束しているにもかかわらず、従来のビジョンタスクの有効性は評価されていない。
本稿では,VLMに基づく検出とセグメンテーションの体系的レビューを行い,VLMを基礎モデルとみなし,複数の下流タスクを対象とした総合的な評価を初めて実施する。
1)評価は、8つの検出シナリオ(クローズドセット検出、ドメイン適応、混み合ったオブジェクトなど)と8つのセグメンテーションシナリオ(フェーショット、オープンワールド、小さなオブジェクトなど)にまたがっており、タスク間で異なるパフォーマンス上の利点と様々なVLMアーキテクチャの制限を明らかにしている。
2) 検出タスクは,3つの微調整された粒度: \textit{zero prediction}, \textit{visual fine-tuning}, \textit{text prompt} で評価し,さらに異なる微調整戦略が様々なタスクにおける性能に与える影響を分析する。
3)実験結果に基づいて,タスク特性,モデルアーキテクチャ,トレーニング方法論の相関関係を詳細に分析し,今後のVLM設計の知見を提供する。
4)本研究は,コンピュータビジョン,マルチモーダルラーニング,ビジョン基礎モデルの分野に携わるパターン認識の専門家にとって,この問題にそれらを導入し,今後の研究に期待できる方向性を提供しつつ,現在の進捗状況に精通させることで,有用であると信じている。
このレビューと評価に関連するプロジェクトがhttps://github.com/better-chao/perceptual_abilities_evaluationで作成されている。
関連論文リスト
- Benchmarking Large Vision-Language Models on Fine-Grained Image Tasks: A Comprehensive Evaluation [53.84282335629258]
我々は349万の質問と332万の画像からなる総合的なきめ細かい評価ベンチマーク、すなわちFG-BMKを導入する。
本評価では,人間指向と機械指向の両方の観点からLVLMを体系的に検討する。
トレーニングパラダイム,モダリティアライメント,摂動感受性,および細粒度カテゴリー推論がタスクパフォーマンスに与える影響について,重要な知見を明らかにした。
論文 参考訳(メタデータ) (2025-04-21T09:30:41Z) - Bridging vision language model (VLM) evaluation gaps with a framework for scalable and cost-effective benchmark generation [1.5882269305999785]
本稿では,ドメイン固有のVLMベンチマークの資源効率向上のためのフレームワークを提案する。
また、同じ均質なプロトコルに基づいて作成した7つのドメインに対する新しいVLMベンチマークもリリースしている。
合計37,171タスクにおける22の最先端VLMの広範なベンチマークにより、ドメインとタスク間のパフォーマンスのばらつきが明らかになった。
論文 参考訳(メタデータ) (2025-02-21T16:24:10Z) - Benchmarking Vision, Language, & Action Models on Robotic Learning Tasks [20.93006455952299]
視覚言語アクション(VLA)モデルは汎用ロボットシステムを開発する上で有望な方向を示す。
VLAモデルを評価するための総合的な評価フレームワークとベンチマークスイートを提案する。
論文 参考訳(メタデータ) (2024-11-04T18:01:34Z) - VipAct: Visual-Perception Enhancement via Specialized VLM Agent Collaboration and Tool-use [74.39058448757645]
視覚言語モデル(VLM)を強化するエージェントフレームワークであるVipActを提案する。
VipActは、タスク要求の分析、計画、調整を管理するオーケストレータエージェントと、特定のタスクを処理する専門エージェントで構成される。
様々な視覚認知タスクを特徴とするベンチマーク上でのVipActの評価を行い,実験結果から大幅な性能向上が得られた。
論文 参考訳(メタデータ) (2024-10-21T18:10:26Z) - Evaluation and Comparison of Visual Language Models for Transportation Engineering Problems [16.49637074299509]
我々は、視覚に基づく輸送工学タスクのための最先端のビジョン言語モデル(VLM)について検討した。
画像分類作業は渋滞検出と亀裂識別を伴い, 物体検出ではヘルメット違反が同定された。
我々はこれらのVLMモデルの性能を評価するために、CLIP、BLIP、OWL-ViT、Llava-Next、およびクローズソースGPT-4oといったオープンソースモデルを適用した。
論文 参考訳(メタデータ) (2024-09-03T20:24:37Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - Vision-Language Models for Vision Tasks: A Survey [62.543250338410836]
視覚言語モデル(VLM)は、Webスケールの画像テキストペアからリッチな視覚言語相関を学習する。
本稿では,視覚認知タスクにおける視覚言語モデルの体系的レビューを行う。
論文 参考訳(メタデータ) (2023-04-03T02:17:05Z) - Multi-Task Learning for Dense Prediction Tasks: A Survey [87.66280582034838]
マルチタスク学習(MTL)技術は、性能、計算、メモリフットプリントに関する有望な結果を示している。
我々は、コンピュータビジョンにおけるMLLのための最先端のディープラーニングアプローチについて、よく理解された視点を提供する。
論文 参考訳(メタデータ) (2020-04-28T09:15:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。