論文の概要: When Does Supervised Training Pay Off? The Hidden Economics of Object Detection in the Era of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2510.11302v2
- Date: Mon, 20 Oct 2025 15:09:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.659918
- Title: When Does Supervised Training Pay Off? The Hidden Economics of Object Detection in the Era of Vision-Language Models
- Title(参考訳): トレーニングの指導はいつ終わるか : 視覚・言語モデルにおける物体検出の隠れ経済
- Authors: Samer Al-Hamadani,
- Abstract要約: 監督されたYOLOの精度は91.2%、ジェミニでは68.5%、標準カテゴリーでは71.3%である。
Geminiは52.3%、GPT-4 55.1%を達成しているが、教師なしのクラスは検出できない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Object detection traditionally relies on costly manual annotation. We present the first comprehensive cost-effectiveness analysis comparing supervised YOLO and zero-shot vision-language models (Gemini Flash 2.5 and GPT-4). Evaluated on 5,000 stratified COCO images and 500 diverse product images, combined with Total Cost of Ownership modeling, we derive break-even thresholds for architecture selection. Results show supervised YOLO attains 91.2% accuracy versus 68.5% for Gemini and 71.3% for GPT-4 on standard categories; the annotation expense for a 100-category system is $10,800, and the accuracy advantage only pays off beyond 55 million inferences (151,000 images/day for one year). On diverse product categories Gemini achieves 52.3% and GPT-4 55.1%, while supervised YOLO cannot detect untrained classes. Cost-per-correct-detection favors Gemini ($0.00050) and GPT-4 ($0.00067) over YOLO ($0.143) at 100,000 inferences. We provide decision frameworks showing that optimal architecture choice depends on inference volume, category stability, budget, and accuracy requirements.
- Abstract(参考訳): オブジェクト検出は伝統的にコストのかかる手作業によるアノテーションに依存します。
本稿では,教師付きYOLOとゼロショットビジョン言語モデル(Gemini Flash 2.5 と GPT-4)を比較検討する。
5000の階層化されたCOCOイメージと500の多様な製品イメージと、総所有コストのモデリングを組み合わせることで、アーキテクチャ選択のブレークフェアしきい値が導出されます。
その結果、管理されたYOLOの精度は、Geminiでは91.2%、GPT-4では68.5%、GPT-4では71.3%、100カテゴリのアノテーションのコストは10,800ドル、精度の優位性は5500万の推論(1年あたり151,000枚)を超えている。
Geminiは52.3%、GPT-4 55.1%を達成しているが、教師なしのクラスは検出できない。
コスト・パー・コレクト検出は10万の推論でYOLO(0.143ドル)よりもGemini(0.00050ドル)とGPT-4(0.00067ドル)を好んでいる。
最適なアーキテクチャの選択は、推論ボリューム、カテゴリの安定性、予算、精度の要求に依存します。
関連論文リスト
- YOLO-DS: Fine-Grained Feature Decoupling via Dual-Statistic Synergy Operator for Object Detection [55.58092342624062]
DSO(Dual-Statistic Synergy Operator)を中心に構築されたYOLO-DSを提案する。
YOLO-DSは、チャネル平均とピーク平均差を共同でモデル化することにより、オブジェクトの特徴を分離する。
MS-COCOベンチマークでは、YOLO-DSは5つのモデルスケールでYOLOv8を上回っている。
論文 参考訳(メタデータ) (2026-01-26T05:50:32Z) - Hybrid Quantum-Classical Ensemble Learning for S\&P 500 Directional Prediction [0.2538209532048867]
本稿では,量子感情分析,決定変換アーキテクチャ,戦略的モデル選択を組み合わせたハイブリッドアンサンブルフレームワークを提案する。
S&P500予測の方向精度は60.14%で、個々のモデルよりも3.10%向上している。
論文 参考訳(メタデータ) (2025-12-06T22:22:09Z) - LLM-as-a-Judge for Scalable Test Coverage Evaluation: Accuracy, Operational Reliability, and Cost [1.7133809948345597]
構造化評価を用いた受入テスト評価のための実運用対応フレームワークを提案する。
正確性、運用上の信頼性、コストにまたがる最初の包括的分析を提供する。
私たちは、データセット、フレームワーク、そしてデプロイをサポートするためのコードをリリースします。
論文 参考訳(メタデータ) (2025-12-01T03:19:33Z) - The NazoNazo Benchmark: A Cost-Effective and Extensible Test of Insight-Based Reasoning in LLMs [3.9977256267361754]
そこで本研究では,日本人児童のライドルから構築した費用効果評価指標であるNazonazoについて紹介する。
GPT-5以外のモデルは人間の性能に匹敵せず、平均精度は52.9%である。
論文 参考訳(メタデータ) (2025-09-18T07:50:04Z) - A Comparative Study of YOLOv8 to YOLOv11 Performance in Underwater Vision Tasks [0.0]
YOLOファミリーの1段階検出器は、単一の低遅延ネットワークで局所化と分類を融合するため、魅力的である。
比較操作条件にまたがる2つのデータセットをキュレートする。コーラル病セット(4,480イメージ、18クラス)と魚種セット(7,500イメージ、20クラス)である。
YOLOvs, YOLOv9-s, YOLOv10-s, YOLOv11-sを同一のハイパー参照でトレーニングし, 精度, リコール, mAP50, mAP50-95, 画像毎の推論時間, フレーム毎秒(FPS)を評価する。
論文 参考訳(メタデータ) (2025-09-16T05:12:59Z) - ASDA: Audio Spectrogram Differential Attention Mechanism for Self-Supervised Representation Learning [57.67273340380651]
実験の結果,ASDAモデルは複数のベンチマークでSOTA(State-of-the-art)性能を達成できた。
これらの結果は、ASDAの音声タスクにおける有効性を強調し、より広範なアプリケーションへの道を開いた。
論文 参考訳(メタデータ) (2025-07-03T14:29:43Z) - Technical report on label-informed logit redistribution for better domain generalization in low-shot classification with foundation models [3.938980910007962]
信頼度校正は、基礎モデルに基づく現実世界の意思決定システムにおいて、新たな課題である。
本研究では,微調整の際,不正分類を罰する損失目標に組み込んだペナルティを提案する。
CMP(textitconfidence misalignment penalty)と呼ぶ。
論文 参考訳(メタデータ) (2025-01-29T11:54:37Z) - FaultGuard: A Generative Approach to Resilient Fault Prediction in Smart Electrical Grids [53.2306792009435]
FaultGuardは、障害タイプとゾーン分類のための最初のフレームワークであり、敵攻撃に耐性がある。
本稿では,ロバスト性を高めるために,低複雑性故障予測モデルとオンライン逆行訓練手法を提案する。
本モデルでは,耐故障予測ベンチマークの最先端を最大0.958の精度で上回っている。
論文 参考訳(メタデータ) (2024-03-26T08:51:23Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - PanGu-$\pi$: Enhancing Language Model Architectures via Nonlinearity
Compensation [97.78045712375047]
大規模言語モデル(LLM)のための新しい効率的なモデルアーキテクチャを提案する。
そこで,PanGu-$pi$-7Bは,約10%の推論速度を持つベンチマークに匹敵する性能が得られることを示す。
さらに,PanGu-$pi$-7Bを金融法と法律の高価値領域に導入し,実践的応用のためにYunShanというLLMを開発した。
論文 参考訳(メタデータ) (2023-12-27T11:49:24Z) - Investigating the Limitation of CLIP Models: The Worst-Performing
Categories [53.360239882501325]
コントラスト言語-画像事前学習(CLIP)は、自然言語を視覚概念に統合する基礎モデルを提供する。
通常、十分に設計されたテキストプロンプトによって、多くの領域で満足な全体的な精度が達成できると期待されている。
しかし、最悪のカテゴリにおけるパフォーマンスは、全体的なパフォーマンスよりも著しく劣っていることがわかった。
論文 参考訳(メタデータ) (2023-10-05T05:37:33Z) - BEA: Revisiting anchor-based object detection DNN using Budding Ensemble
Architecture [8.736601342033431]
Budding Ensemble Architecture(BEA)は、アンカーベースのオブジェクト検出モデルのための、新しい縮小アンサンブルアーキテクチャである。
BEAにおける損失関数は、信頼性スコアの校正を改善し、不確かさを低減させる。
論文 参考訳(メタデータ) (2023-09-14T21:54:23Z) - Patch-Level Contrasting without Patch Correspondence for Accurate and
Dense Contrastive Representation Learning [79.43940012723539]
ADCLRは、正確で高密度な視覚表現を学習するための自己教師型学習フレームワークである。
提案手法は, コントラッシブな手法のための新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-23T07:38:09Z) - What Can We Learn From The Selective Prediction And Uncertainty
Estimation Performance Of 523 Imagenet Classifiers [15.929238800072195]
本稿では,既存の523の事前学習深層画像ネット分類器の選択的予測と不確実性評価性能について述べる。
蒸留法に基づくトレーニング体制は、他のトレーニング方式よりも常により良い不確実性推定を導出することを発見した。
例えば、ImageNetでは前例のない99%のトップ1選択精度を47%で発見しました。
論文 参考訳(メタデータ) (2023-02-23T09:25:28Z) - Ensemble of Averages: Improving Model Selection and Boosting Performance
in Domain Generalization [63.28279815753543]
ドメイン一般化(Domain Generalization, DG)設定では、特定のトレーニングドメインセットでトレーニングされたモデルが、シフトしたテストドメイン上でのカオスなパフォーマンスで悪名高い。
まず、モデルパラメータを最適化パスに沿って平均化する単純なプロトコルが、トレーニングの初期段階から始まって、ドメインの一般化性を大幅に向上させることを示す。
独立に訓練されたモデルのアンサンブルもまた、DG設定においてカオスな振る舞いを持つことを示す。
論文 参考訳(メタデータ) (2021-10-21T00:08:17Z) - End-to-End Semi-Supervised Object Detection with Soft Teacher [63.26266730447914]
本稿では,従来の複雑な多段階法とは対照的に,終端から終端までの半教師付き物体検出手法を提案する。
提案手法は, 種々のラベル付け比において, 従来手法よりも大きなマージンで性能を向上する。
最先端のSwin Transformerベースの物体検出器では、検出精度を+1.5 mAPで大幅に向上させることができる。
論文 参考訳(メタデータ) (2021-06-16T17:59:30Z) - Uncovering the Limits of Adversarial Training against Norm-Bounded
Adversarial Examples [47.27255244183513]
本研究では, 異なるトレーニング損失, モデルサイズ, アクティベーション機能, ラベルなしデータの付加(擬似ラベル付け)などの要因が, 相手の強靭性に及ぼす影響について検討した。
我々は、より大きなモデル、Swish/SiLUアクティベーションとモデルウェイト平均化を組み合わせることで、最先端の成果をはるかに超えるロバストモデルをトレーニングできることを発見した。
論文 参考訳(メタデータ) (2020-10-07T18:19:09Z) - Generalized Focal Loss: Learning Qualified and Distributed Bounding
Boxes for Dense Object Detection [85.53263670166304]
一段検出器は基本的に、物体検出を密度の高い分類と位置化として定式化する。
1段検出器の最近の傾向は、局所化の質を推定するために個別の予測分岐を導入することである。
本稿では, 上記の3つの基本要素, 品質推定, 分類, ローカライゼーションについて述べる。
論文 参考訳(メタデータ) (2020-06-08T07:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。