論文の概要: Object Counting with GPT-4o and GPT-5: A Comparative Study
- arxiv url: http://arxiv.org/abs/2512.03233v1
- Date: Tue, 02 Dec 2025 21:07:13 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:05:16.252392
- Title: Object Counting with GPT-4o and GPT-5: A Comparative Study
- Title(参考訳): GPT-4oとGPT-5を用いた物体計数:比較検討
- Authors: Richard Füzesséry, Kaziwa Saleh, Sándor Szénási, Zoltán Vámossy,
- Abstract要約: ゼロショットオブジェクトカウントは、トレーニング中にそのカウントを実行するビジョンモデルに遭遇したことのない新しいカテゴリに属するオブジェクトインスタンスの数を推定しようとする。
既存の方法は、通常大量の注釈付きデータを必要とし、しばしば数え上げのプロセスを導くために視覚的な例えを必要とする。
大規模言語モデル(LLM)は、目覚ましい推論とデータ理解能力を備えた強力なツールである。
- 参考スコア(独自算出の注目度): 2.624902795082451
- License:
- Abstract: Zero-shot object counting attempts to estimate the number of object instances belonging to novel categories that the vision model performing the counting has never encountered during training. Existing methods typically require large amount of annotated data and often require visual exemplars to guide the counting process. However, large language models (LLMs) are powerful tools with remarkable reasoning and data understanding abilities, which suggest the possibility of utilizing them for counting tasks without any supervision. In this work we aim to leverage the visual capabilities of two multi-modal LLMs, GPT-4o and GPT-5, to perform object counting in a zero-shot manner using only textual prompts. We evaluate both models on the FSC-147 and CARPK datasets and provide a comparative analysis. Our findings show that the models achieve performance comparable to the state-of-the-art zero-shot approaches on FSC-147, in some cases, even surpass them.
- Abstract(参考訳): ゼロショットオブジェクトカウントは、トレーニング中にそのカウントを実行するビジョンモデルに遭遇したことのない新しいカテゴリに属するオブジェクトインスタンスの数を推定しようとする。
既存の方法は、通常大量の注釈付きデータを必要とし、しばしば数え上げ過程を導くために視覚的な例えを必要とする。
しかし、大きな言語モデル(LLM)は、目覚ましい推論とデータ理解能力を備えた強力なツールである。
本研究では,2つのマルチモーダルLCM(GPT-4oとGPT-5)の視覚的能力を活用し,テキストプロンプトのみを用いてゼロショットでオブジェクトカウントを行う。
FSC-147データセットとCARPKデータセットの両モデルを比較し,比較分析を行った。
以上の結果から,FSC-147の最先端ゼロショット手法に匹敵する性能が得られた。
関連論文リスト
- Can Current AI Models Count What We Mean, Not What They See? A Benchmark and Systematic Evaluation [21.90583276089241]
PairTallyは、きめ細かいビジュアルカウントを評価するために設計されたベンチマークデータセットである。
PairTallyの681の高解像度画像はそれぞれ2つの対象カテゴリを含んでいる。
最近の進歩にもかかわらず、現在のモデルはユーザーが何を意図しているかを確実に数えるのに苦労している。
論文 参考訳(メタデータ) (2025-09-17T13:06:58Z) - Towards Truly Zero-shot Compositional Visual Reasoning with LLMs as Programmers [54.83459025465947]
最大のモデルでさえ、構成的推論、一般化、きめ細かい空間的および時間的推論、数え上げに苦しむ。
コントローラとしての大きな言語モデル(LLM)による視覚的推論は、原則として、タスクを分解し、一連の(視覚的な)ツールを編成することでサブタスクを解決することで、これらの制限に対処することができる。
本稿では,空間的・時間的に抽象的なルーチンを導入し,少数のラベル付き例を利用してコンテキスト内サンプルを自動的に生成することにより,これらの問題を緩和するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-03T20:48:47Z) - Revisiting Few-Shot Object Detection with Vision-Language Models [49.79495118650838]
我々は、最近の基礎視覚言語モデル(VLM)の文脈で、少数ショットオブジェクト検出(FSOD)のタスクを再考する。
我々は,任意の外部データ上で事前学習された検出器を評価する新しいベンチマークプロトコルであるFoundational FSODを提案する。
CVPR 2024 Foundational FSOD コンペティションについて論じ,コミュニティからの洞察を共有した。
論文 参考訳(メタデータ) (2023-12-22T07:42:00Z) - Zero-Shot Object Counting with Language-Vision Models [50.1159882903028]
クラスに依存しないオブジェクトカウントは、テスト時に任意のクラスのオブジェクトインスタンスをカウントすることを目的としている。
現在の手法では、新しいカテゴリではしばしば利用できない入力として、人間に注釈をつけた模範を必要とする。
テスト期間中にクラス名のみを利用できる新しい設定であるゼロショットオブジェクトカウント(ZSC)を提案する。
論文 参考訳(メタデータ) (2023-09-22T14:48:42Z) - Learning to Count without Annotations [23.506936202158013]
我々は、手動のアノテーションを必要とせずに、このタスクを学習できるモデルUnCounTRを提案する。
任意の種類のオブジェクトと数をカバーするリッチな学習信号を提供する訓練用サンプルとして,様々なペーストされたオブジェクトを用いた「自己相関」画像を構築した。
提案手法は既存の教師なし表現とセグメンテーション技術に基づいて,手動の監督なしに参照ベースのカウント機能を示す。
論文 参考訳(メタデータ) (2023-07-17T17:48:06Z) - CounTR: Transformer-based Generalised Visual Counting [94.54725247039441]
我々は任意の意味圏からオブジェクト数を数える計算モデルを開発し、任意の数の「例」を用いて計算する。
FSC-147のような大規模カウントベンチマークの徹底的なアブレーション研究を行い、ゼロおよび少数ショット設定の両方で最先端の性能を示す。
論文 参考訳(メタデータ) (2022-08-29T17:02:45Z) - Multi-Modal Few-Shot Object Detection with Meta-Learning-Based
Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。
我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。
提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文 参考訳(メタデータ) (2022-04-16T16:45:06Z) - Objectness-Aware Few-Shot Semantic Segmentation [31.13009111054977]
モデル全体のキャパシティを向上し、パフォーマンスを向上させる方法を示す。
我々は、クラス非依存であり、過度に適合しがちな客観性を導入する。
注釈のないカテゴリの例が1つだけあると、実験により、mIoUに関して、我々の手法が最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2020-04-06T19:12:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。