論文の概要: A Training-Free Guess What Vision Language Model from Snippets to Open-Vocabulary Object Detection
- arxiv url: http://arxiv.org/abs/2601.11910v1
- Date: Sat, 17 Jan 2026 05:14:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.371222
- Title: A Training-Free Guess What Vision Language Model from Snippets to Open-Vocabulary Object Detection
- Title(参考訳): SnippetsからOpen-Vocabulary Object Detectionまでの視覚言語モデル
- Authors: Guiying Zhu, Bowen Yang, Yin Zhuang, Tong Zhang, Guanqun Wang, Zhihao Che, He Chen, Lianlin Li,
- Abstract要約: Open-Vocabulary Object Detection (OVOD)は、あらゆるものを検知する機能を開発することを目的としている。
本稿では,普遍的な理解パラダイムを形成するために,学習自由なギース・オブ・ビジョン言語モデルを提案する。
提案したGW-VLMは,トレーニングステップを使わずに,最先端の手法と比較して優れたOVOD性能を実現することができる。
- 参考スコア(独自算出の注目度): 16.166979262501425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-Vocabulary Object Detection (OVOD) aims to develop the capability to detect anything. Although myriads of large-scale pre-training efforts have built versatile foundation models that exhibit impressive zero-shot capabilities to facilitate OVOD, the necessity of creating a universal understanding for any object cognition according to already pretrained foundation models is usually overlooked. Therefore, in this paper, a training-free Guess What Vision Language Model, called GW-VLM, is proposed to form a universal understanding paradigm based on our carefully designed Multi-Scale Visual Language Searching (MS-VLS) coupled with Contextual Concept Prompt (CCP) for OVOD. This approach can engage a pre-trained Vision Language Model (VLM) and a Large Language Model (LLM) in the game of "guess what". Wherein, MS-VLS leverages multi-scale visual-language soft-alignment for VLM to generate snippets from the results of class-agnostic object detection, while CCP can form the concept of flow referring to MS-VLS and then make LLM understand snippets for OVOD. Finally, the extensive experiments are carried out on natural and remote sensing datasets, including COCO val, Pascal VOC, DIOR, and NWPU-10, and the results indicate that our proposed GW-VLM can achieve superior OVOD performance compared to the-state-of-the-art methods without any training step.
- Abstract(参考訳): Open-Vocabulary Object Detection (OVOD)は、あらゆるものを検知する機能を開発することを目的としている。
大規模な事前学習の試みは、OVODを促進するために印象的なゼロショット能力を示す多種多様な基礎モデルを構築してきたが、既に事前訓練された基礎モデルに従って、あらゆる物体の認識を普遍的に理解する必要性は通常見過ごされている。
そこで本稿では,OVOD の文脈概念 Prompt (CCP) と組み合わせたマルチスケールビジュアル言語探索 (Multi-Scale Visual Language Searching, MS-VLS) に基づいて,GW-VLM と呼ばれる学習自由なGuess What Vision Language Model を提案する。
このアプローチは、事前訓練されたビジョン言語モデル(VLM)と、"guess What"というゲームにLarge Language Model(LLM)を組み込むことができる。
一方、MS-VLSはVLMのマルチスケール視覚言語ソフトアライメントを利用して、クラスに依存しないオブジェクト検出の結果からスニペットを生成する。
最後に, COCO val, Pascal VOC, DIOR, NWPU-10 などの自然・遠隔センシングデータを用いて広範囲に実験を行い, 提案したGW-VLM は, トレーニングステップを使わずにOVOD 性能を向上できることを示す。
関連論文リスト
- OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction [95.6266030753644]
Vision-Language-Action(VLA)モデルは、視覚的な観察と言語指示に基づいてロボット行動を予測することを目的としている。
既存のアプローチでは、視覚的特徴と言語的特徴が独立して下流ポリシーに供給されるため、微調整済みの視覚言語モデル(VLM)が必要である。
本稿では,テキスト認識による視覚的特徴抽出によって既存のアライメントを活用する新しいVLAアーキテクチャOTTERを提案する。
論文 参考訳(メタデータ) (2025-03-05T18:44:48Z) - HoVLE: Unleashing the Power of Monolithic Vision-Language Models with Holistic Vision-Language Embedding [91.0552157725366]
本稿では,HoVLEという新しい高性能モノリシックVLMを提案する。
視覚的入力とテキスト入力を共有空間に変換し、LLMはテキストと同じ方法で画像を処理できる。
実験の結果,HoVLEは様々なベンチマークにおいて,主要な構成モデルに近い性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-12-20T18:59:59Z) - Harnessing Vision-Language Pretrained Models with Temporal-Aware Adaptation for Referring Video Object Segmentation [34.37450315995176]
現在の参照ビデオオブジェクト(RVOS)メソッドは通常、バックボーンとして独立して事前訓練された視覚と言語モデルを使用する。
画素レベルの予測に事前学習した表現を適応させる時間認識型プロンプトチューニング手法を提案する。
提案手法は最先端のアルゴリズムに対して良好に動作し,強力な一般化能力を示す。
論文 参考訳(メタデータ) (2024-05-17T08:14:22Z) - CoLLaVO: Crayon Large Language and Vision mOdel [42.182009352159]
現在のビジョン言語モデルが本当に品質の高いオブジェクトレベルの画像理解能力を持っているかどうかは、まだ解明されていない。
その結果,現在のVLMのイメージ理解能力は,視覚言語(VL)タスクにおけるゼロショット性能と強く相関していることが判明した。
オブジェクトレベルの画像理解を強化するために,Crayon Large Language and Vision mOdel (CoLLaVO)を提案する。
本稿では,視覚的指導指導中に,オブジェクトレベルのイメージ理解を忘れずに維持するためのDual QLoRAの学習戦略を提案する。
論文 参考訳(メタデータ) (2024-02-17T11:03:02Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - PEVL: Position-enhanced Pre-training and Prompt Tuning for
Vision-language Models [127.17675443137064]
PEVLを導入し、明示的なオブジェクト位置モデリングによる視覚言語モデルの事前学習と迅速なチューニングを促進する。
PEVLは、統一言語モデリングフレームワークにおいて、離散化されたオブジェクトの位置と言語を再構成する。
PEVLは,表現理解や句の接頭など,位置感性のあるタスクに対して,最先端のパフォーマンスを実現することができることを示す。
論文 参考訳(メタデータ) (2022-05-23T10:17:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。