論文の概要: Assessing the Visual Enumeration Abilities of Specialized Counting Architectures and Vision-Language Models
- arxiv url: http://arxiv.org/abs/2512.15254v1
- Date: Wed, 17 Dec 2025 09:56:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.927635
- Title: Assessing the Visual Enumeration Abilities of Specialized Counting Architectures and Vision-Language Models
- Title(参考訳): 特殊カウンティング・アーキテクチャとビジョン・ランゲージ・モデルによる視覚的列挙能力の評価
- Authors: Kuinan Hou, Jing Mi, Marco Zorzi, Lamberto Ballan, Alberto Testolin,
- Abstract要約: マルチモーダル視覚言語モデル(VLM)は、オープンセットオブジェクトカウントの柔軟な代替手段を提供する。
VLMは、視覚的なシーンにおけるアイテムの数を概算したり、特別なコンピュータビジョンアーキテクチャの性能にマッチしたり、超えたりすることができる。
いずれのモデルも、複雑な視覚シーンにおけるオブジェクトの数を確実にカウントすることはできない。
- 参考スコア(独自算出の注目度): 5.310444614342132
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Counting the number of items in a visual scene remains a fundamental yet challenging task in computer vision. Traditional approaches to solving this problem rely on domain-specific counting architectures, which are trained using datasets annotated with a predefined set of object categories. However, recent progress in creating large-scale multimodal vision-language models (VLMs) suggests that these domain-general architectures may offer a flexible alternative for open-set object counting. In this study, we therefore systematically compare the performance of state-of-the-art specialized counting architectures against VLMs on two popular counting datasets, as well as on a novel benchmark specifically created to have a finer-grained control over the visual properties of test images. Our findings show that most VLMs can approximately enumerate the number of items in a visual scene, matching or even surpassing the performance of specialized computer vision architectures. Notably, enumeration accuracy significantly improves when VLMs are prompted to generate intermediate representations (i.e., locations and verbal labels) of each object to be counted. Nevertheless, none of the models can reliably count the number of objects in complex visual scenes, showing that further research is still needed to create AI systems that can reliably deploy counting procedures in realistic environments.
- Abstract(参考訳): 視覚的なシーンにおけるアイテムの数を数えることは、コンピュータビジョンの基本的な課題でありながら難しい課題である。
この問題に対する従来のアプローチは、事前に定義されたオブジェクトカテゴリのセットで注釈付けされたデータセットを使用してトレーニングされた、ドメイン固有のカウントアーキテクチャに依存している。
しかし、近年の大規模マルチモーダル視覚言語モデル(VLM)の進歩は、これらのドメイン汎用アーキテクチャがオープンセットオブジェクトカウントの柔軟な代替手段を提供する可能性を示唆している。
そこで本研究では,2つの一般的な計数データセット上でのVLMに対する最先端の特殊計数アーキテクチャの性能と,テスト画像の視覚的特性をよりきめ細かい制御を行うための新たなベンチマークを,系統的に比較した。
以上の結果から,ほとんどのVLMは,視覚的シーンにおける項目数,マッチング,さらにはコンピュータビジョンアーキテクチャの性能を概算できることがわかった。
特に、列挙精度は、VLMが促されて、カウント対象のオブジェクトの中間表現(場所とラベル)を生成するときに著しく向上する。
それでも、どのモデルも複雑な視覚的なシーンで確実にオブジェクトの数を数えることができず、現実的な環境で確実に数えられるプロシージャをデプロイできるAIシステムを構築するためには、さらなる研究が必要であることを示している。
関連論文リスト
- Can Vision-Language Models Count? A Synthetic Benchmark and Analysis of Attention-Based Interventions [0.4934817254755008]
視覚言語モデル(VLM)は、画像の視覚特性に関するクエリに応答する際に、トレーニング中に学んだ固有のバイアスに依存することが多い。
本研究は,画像としての性能がどう変化するかを判断し,特性変化を促すための,総合的なベンチマークデータセットと評価フレームワークを構築した。
我々は,異なるレイヤにおける視覚的トークンに注目する,注意に基づく介入を実施し,その効果を視覚的条件によって評価する。
論文 参考訳(メタデータ) (2025-11-21T19:18:41Z) - Understanding Counting Mechanisms in Large Language and Vision-Language Models [8.918147502104603]
本研究では,大規模言語モデル (LLM) と大規模視覚言語モデル (LVLM) が,タスク数における数値情報をどのように表現し,計算するかを検討する。
その結果、個々のトークンや視覚的特徴が、コンテキスト間で抽出および転送可能な潜在位置カウント情報を符号化していることがわかった。
LVLMでは、空間組成に応じて背景領域と前景領域を移動する視覚埋め込みにも数値情報が現れる。
論文 参考訳(メタデータ) (2025-11-21T18:48:22Z) - Can Current AI Models Count What We Mean, Not What They See? A Benchmark and Systematic Evaluation [21.90583276089241]
PairTallyは、きめ細かいビジュアルカウントを評価するために設計されたベンチマークデータセットである。
PairTallyの681の高解像度画像はそれぞれ2つの対象カテゴリを含んでいる。
最近の進歩にもかかわらず、現在のモデルはユーザーが何を意図しているかを確実に数えるのに苦労している。
論文 参考訳(メタデータ) (2025-09-17T13:06:58Z) - QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding [53.69841526266547]
トレーニング済みのVision-Language Modelを新しいデータセットで微調整することは、ビジョンエンコーダの最適化に不足することが多い。
視覚エンコーダにクエリの埋め込みを統合する,新しい,合理化されたアーキテクチャ保存アプローチであるQIDを導入する。
論文 参考訳(メタデータ) (2025-04-03T18:47:16Z) - Enhanced Multimodal RAG-LLM for Accurate Visual Question Answering [10.505845766495128]
MLLM(Multimodal large language model)は、視覚とテキストのモダリティの統合において大きな進歩を遂げた。
マルチモーダル検索拡張生成(RAG)に基づく新しいフレームワークを提案する。
RAGは、画像内のオブジェクト認識、関係識別、空間的理解を強化するために構造化されたシーングラフを導入している。
論文 参考訳(メタデータ) (2024-12-30T13:16:08Z) - Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
現在、視覚言語モデル(VLM)には、状況を考慮した特定の物体をシーン内でローカライズする学習という、基本的な認知能力がないことが分かっています。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - Interpreting the structure of multi-object representations in vision encoders [1.8749305679160366]
我々は、分類、大規模視覚言語モデル、自己教師付き手法に基づいて事前訓練された視覚エンコーダを評価する。
視覚エンコーダ内のトークンや層にオブジェクトワイズ表現がどのように分散されているかを検討する。
本研究は,対象物が事前学習対象物との関連性に応じて,対象物の表現に有意な差異を呈するものである。
論文 参考訳(メタデータ) (2024-06-13T12:54:20Z) - BEHAVIOR Vision Suite: Customizable Dataset Generation via Simulation [57.40024206484446]
我々は、コンピュータビジョンモデルの体系的評価のために、完全にカスタマイズされた合成データを生成するためのツールと資産のセットであるBEHAVIOR Vision Suite(BVS)を紹介する。
BVSはシーンレベルで多数の調整可能なパラメータをサポートする。
アプリケーションシナリオを3つ紹介する。
論文 参考訳(メタデータ) (2024-05-15T17:57:56Z) - Look-into-Object: Self-supervised Structure Modeling for Object
Recognition [71.68524003173219]
我々は,自己スーパービジョンを取り入れた「対象」(具体的かつ内在的に対象構造をモデル化する)を提案する。
認識バックボーンは、より堅牢な表現学習のために大幅に拡張可能であることを示す。
提案手法は汎用オブジェクト認識(ImageNet)や細粒度オブジェクト認識タスク(CUB, Cars, Aircraft)など,多数のベンチマークにおいて大きなパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-03-31T12:22:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。