論文の概要: When Does Supervised Training Pay Off? The Hidden Economics of Object Detection in the Era of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2510.11302v2
- Date: Mon, 20 Oct 2025 15:09:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.659918
- Title: When Does Supervised Training Pay Off? The Hidden Economics of Object Detection in the Era of Vision-Language Models
- Title(参考訳): トレーニングの指導はいつ終わるか : 視覚・言語モデルにおける物体検出の隠れ経済
- Authors: Samer Al-Hamadani,
- Abstract要約: 監督されたYOLOの精度は91.2%、ジェミニでは68.5%、標準カテゴリーでは71.3%である。
Geminiは52.3%、GPT-4 55.1%を達成しているが、教師なしのクラスは検出できない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Object detection traditionally relies on costly manual annotation. We present the first comprehensive cost-effectiveness analysis comparing supervised YOLO and zero-shot vision-language models (Gemini Flash 2.5 and GPT-4). Evaluated on 5,000 stratified COCO images and 500 diverse product images, combined with Total Cost of Ownership modeling, we derive break-even thresholds for architecture selection. Results show supervised YOLO attains 91.2% accuracy versus 68.5% for Gemini and 71.3% for GPT-4 on standard categories; the annotation expense for a 100-category system is $10,800, and the accuracy advantage only pays off beyond 55 million inferences (151,000 images/day for one year). On diverse product categories Gemini achieves 52.3% and GPT-4 55.1%, while supervised YOLO cannot detect untrained classes. Cost-per-correct-detection favors Gemini ($0.00050) and GPT-4 ($0.00067) over YOLO ($0.143) at 100,000 inferences. We provide decision frameworks showing that optimal architecture choice depends on inference volume, category stability, budget, and accuracy requirements.
- Abstract(参考訳): オブジェクト検出は伝統的にコストのかかる手作業によるアノテーションに依存します。
本稿では,教師付きYOLOとゼロショットビジョン言語モデル(Gemini Flash 2.5 と GPT-4)を比較検討する。
5000の階層化されたCOCOイメージと500の多様な製品イメージと、総所有コストのモデリングを組み合わせることで、アーキテクチャ選択のブレークフェアしきい値が導出されます。
その結果、管理されたYOLOの精度は、Geminiでは91.2%、GPT-4では68.5%、GPT-4では71.3%、100カテゴリのアノテーションのコストは10,800ドル、精度の優位性は5500万の推論(1年あたり151,000枚)を超えている。
Geminiは52.3%、GPT-4 55.1%を達成しているが、教師なしのクラスは検出できない。
コスト・パー・コレクト検出は10万の推論でYOLO(0.143ドル)よりもGemini(0.00050ドル)とGPT-4(0.00067ドル)を好んでいる。
最適なアーキテクチャの選択は、推論ボリューム、カテゴリの安定性、予算、精度の要求に依存します。
関連論文リスト
- The NazoNazo Benchmark: A Cost-Effective and Extensible Test of Insight-Based Reasoning in LLMs [3.9977256267361754]
そこで本研究では,日本人児童のライドルから構築した費用効果評価指標であるNazonazoについて紹介する。
GPT-5以外のモデルは人間の性能に匹敵せず、平均精度は52.9%である。
論文 参考訳(メタデータ) (2025-09-18T07:50:04Z) - ASDA: Audio Spectrogram Differential Attention Mechanism for Self-Supervised Representation Learning [57.67273340380651]
実験の結果,ASDAモデルは複数のベンチマークでSOTA(State-of-the-art)性能を達成できた。
これらの結果は、ASDAの音声タスクにおける有効性を強調し、より広範なアプリケーションへの道を開いた。
論文 参考訳(メタデータ) (2025-07-03T14:29:43Z) - Technical report on label-informed logit redistribution for better domain generalization in low-shot classification with foundation models [3.938980910007962]
信頼度校正は、基礎モデルに基づく現実世界の意思決定システムにおいて、新たな課題である。
本研究では,微調整の際,不正分類を罰する損失目標に組み込んだペナルティを提案する。
CMP(textitconfidence misalignment penalty)と呼ぶ。
論文 参考訳(メタデータ) (2025-01-29T11:54:37Z) - FaultGuard: A Generative Approach to Resilient Fault Prediction in Smart Electrical Grids [53.2306792009435]
FaultGuardは、障害タイプとゾーン分類のための最初のフレームワークであり、敵攻撃に耐性がある。
本稿では,ロバスト性を高めるために,低複雑性故障予測モデルとオンライン逆行訓練手法を提案する。
本モデルでは,耐故障予測ベンチマークの最先端を最大0.958の精度で上回っている。
論文 参考訳(メタデータ) (2024-03-26T08:51:23Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - Investigating the Limitation of CLIP Models: The Worst-Performing
Categories [53.360239882501325]
コントラスト言語-画像事前学習(CLIP)は、自然言語を視覚概念に統合する基礎モデルを提供する。
通常、十分に設計されたテキストプロンプトによって、多くの領域で満足な全体的な精度が達成できると期待されている。
しかし、最悪のカテゴリにおけるパフォーマンスは、全体的なパフォーマンスよりも著しく劣っていることがわかった。
論文 参考訳(メタデータ) (2023-10-05T05:37:33Z) - BEA: Revisiting anchor-based object detection DNN using Budding Ensemble
Architecture [8.736601342033431]
Budding Ensemble Architecture(BEA)は、アンカーベースのオブジェクト検出モデルのための、新しい縮小アンサンブルアーキテクチャである。
BEAにおける損失関数は、信頼性スコアの校正を改善し、不確かさを低減させる。
論文 参考訳(メタデータ) (2023-09-14T21:54:23Z) - Patch-Level Contrasting without Patch Correspondence for Accurate and
Dense Contrastive Representation Learning [79.43940012723539]
ADCLRは、正確で高密度な視覚表現を学習するための自己教師型学習フレームワークである。
提案手法は, コントラッシブな手法のための新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-23T07:38:09Z) - What Can We Learn From The Selective Prediction And Uncertainty
Estimation Performance Of 523 Imagenet Classifiers [15.929238800072195]
本稿では,既存の523の事前学習深層画像ネット分類器の選択的予測と不確実性評価性能について述べる。
蒸留法に基づくトレーニング体制は、他のトレーニング方式よりも常により良い不確実性推定を導出することを発見した。
例えば、ImageNetでは前例のない99%のトップ1選択精度を47%で発見しました。
論文 参考訳(メタデータ) (2023-02-23T09:25:28Z) - Generalized Focal Loss: Learning Qualified and Distributed Bounding
Boxes for Dense Object Detection [85.53263670166304]
一段検出器は基本的に、物体検出を密度の高い分類と位置化として定式化する。
1段検出器の最近の傾向は、局所化の質を推定するために個別の予測分岐を導入することである。
本稿では, 上記の3つの基本要素, 品質推定, 分類, ローカライゼーションについて述べる。
論文 参考訳(メタデータ) (2020-06-08T07:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。