論文の概要: COUNTS: Benchmarking Object Detectors and Multimodal Large Language Models under Distribution Shifts
- arxiv url: http://arxiv.org/abs/2504.10158v1
- Date: Mon, 14 Apr 2025 12:13:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:54:50.501223
- Title: COUNTS: Benchmarking Object Detectors and Multimodal Large Language Models under Distribution Shifts
- Title(参考訳): COUNTS:分散シフト下におけるオブジェクト検出器のベンチマークと多モード大言語モデル
- Authors: Jiansheng Li, Xingxuan Zhang, Hao Zou, Yige Guo, Renzhe Xu, Yilong Liu, Chuzhao Zhu, Yue He, Peng Cui,
- Abstract要約: 物体検出器のOOD(Out-of-distribution)一般化能力は、研究者の注目を集めている。
オブジェクトレベルのアノテーションを備えた大規模OODデータセットであるCOUNTSを紹介する。
COUNTSは14の自然分布シフト、222K以上のサンプルと1,196K以上のラベル付きバウンディングボックスを含んでいる。
- 参考スコア(独自算出の注目度): 29.971726893201897
- License:
- Abstract: Current object detectors often suffer significant perfor-mance degradation in real-world applications when encountering distributional shifts. Consequently, the out-of-distribution (OOD) generalization capability of object detectors has garnered increasing attention from researchers. Despite this growing interest, there remains a lack of a large-scale, comprehensive dataset and evaluation benchmark with fine-grained annotations tailored to assess the OOD generalization on more intricate tasks like object detection and grounding. To address this gap, we introduce COUNTS, a large-scale OOD dataset with object-level annotations. COUNTS encompasses 14 natural distributional shifts, over 222K samples, and more than 1,196K labeled bounding boxes. Leveraging COUNTS, we introduce two novel benchmarks: O(OD)2 and OODG. O(OD)2 is designed to comprehensively evaluate the OOD generalization capabilities of object detectors by utilizing controlled distribution shifts between training and testing data. OODG, on the other hand, aims to assess the OOD generalization of grounding abilities in multimodal large language models (MLLMs). Our findings reveal that, while large models and extensive pre-training data substantially en hance performance in in-distribution (IID) scenarios, significant limitations and opportunities for improvement persist in OOD contexts for both object detectors and MLLMs. In visual grounding tasks, even the advanced GPT-4o and Gemini-1.5 only achieve 56.7% and 28.0% accuracy, respectively. We hope COUNTS facilitates advancements in the development and assessment of robust object detectors and MLLMs capable of maintaining high performance under distributional shifts.
- Abstract(参考訳): 現在の物体検出器は、分散シフトに遭遇する際に、現実世界の応用においてかなりのパーフォルマンス劣化を被ることが多い。
その結果、対象検出器のOOD(out-of-distriion)一般化能力は、研究者の注目を集めている。
このような関心の高まりにもかかわらず、オブジェクト検出やグラウンド化といったより複雑なタスクに対して、OODの一般化を評価するために調整された詳細なアノテーションを備えた、大規模で包括的なデータセットと評価ベンチマークは、依然として欠落している。
このギャップに対処するために、オブジェクトレベルのアノテーションを備えた大規模OODデータセットであるCOUNTSを紹介します。
COUNTSは14の自然分布シフト、222K以上のサンプルと1,196K以上のラベル付きバウンディングボックスを含んでいる。
COUNTSを活用することで、O(OD)2とOODGという2つの新しいベンチマークを導入する。
O(OD)2は, 対象検出器のOOD一般化能力を総合的に評価するために, 訓練データと試験データ間の分散シフトを制御して設計されている。
一方,OODGは,マルチモーダル大言語モデル(MLLM)における基底能力のOOD一般化を評価することを目的としている。
その結果,大規模モデルと広範囲な事前学習データにより,IID(In-distriion)シナリオの性能が著しく向上する一方で,オブジェクト検出器とMLLMの両方のOODコンテキストにおいて,改善のための重要な制限と機会が持続していることが判明した。
視覚接地作業では、高度な GPT-4o と Gemini-1.5 もそれぞれ 56.7% と 28.0% の精度しか達成していない。
我々は、COUNTSが、分散シフト下で高い性能を維持することができる頑健な物体検出器とMLLMの開発と評価を促進できることを願っている。
関連論文リスト
- Out-of-Distribution Detection with Overlap Index [22.92968284023414]
アウト・オブ・ディストリビューション(OOD)検出は、オープンな世界における機械学習モデルの展開に不可欠である。
重なり指数(OI)に基づく信頼度スコア関数を用いた新しいOOD検出手法を提案する。
我々は,OIをベースとしたOOD検出器と最先端のOOD検出器が競合することを示す。
論文 参考訳(メタデータ) (2024-12-09T03:01:47Z) - MADOD: Generalizing OOD Detection to Unseen Domains via G-Invariance Meta-Learning [10.38552112657656]
本稿では,メタ学習型Across Domain Out-of-Distribution Detection (MADOD)を紹介した。
タスク構築において重要な革新は、各メタ学習タスク内で、分散クラスを擬似OODとしてランダムに指定することである。
実世界のデータセットと合成データセットの実験により、MADODは目に見えない領域を横断するセマンティックOOD検出において優れた性能を示した。
論文 参考訳(メタデータ) (2024-11-02T17:46:23Z) - SOOD++: Leveraging Unlabeled Data to Boost Oriented Object Detection [59.868772767818975]
本稿では,SOOD++ と呼ばれる簡易かつ効果的な半教師付きオブジェクト指向検出手法を提案する。
具体的には、空中画像からの物体は、通常任意の向き、小さなスケール、集約である。
様々なラベル付き環境下での多目的オブジェクトデータセットに対する大規模な実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-07-01T07:03:51Z) - Envisioning Outlier Exposure by Large Language Models for Out-of-Distribution Detection [71.93411099797308]
オープンワールドシナリオに機械学習モデルをデプロイする場合、アウト・オブ・ディストリビューション(OOD)サンプルは不可欠である。
本稿では,大規模言語モデル(LLM)の専門知識と推論能力を活用して,この制約に対処することを提案する。
EOEは、遠、近、きめ細かいOOD検出など、さまざまなタスクに一般化することができる。
EOEは様々なOODタスクで最先端のパフォーマンスを実現し、ImageNet-1Kデータセットに効果的にスケールできる。
論文 参考訳(メタデータ) (2024-06-02T17:09:48Z) - Better Sampling, towards Better End-to-end Small Object Detection [7.7473020808686694]
限られた特性と高密度と相互重なり合いのため、小さな物体検出は不満足なままである。
エンド・ツー・エンド・フレームワークにおけるサンプリングの強化手法を提案する。
我々のモデルは、VisDroneデータセット上での最先端(SOTA)よりも平均精度(AP)が2.9%向上することを示す。
論文 参考訳(メタデータ) (2024-05-17T04:37:44Z) - Detecting Out-of-Distribution Through the Lens of Neural Collapse [7.04686607977352]
Out-of-Distribution (OOD) 検出は安全なデプロイメントに不可欠である。
ニューラル・コラプス現象に触発されて,我々は多目的かつ効率的なOOD検出法を提案する。
論文 参考訳(メタデータ) (2023-11-02T05:18:28Z) - SOOD: Towards Semi-Supervised Oriented Object Detection [57.05141794402972]
本稿では, 主流の擬似ラベリングフレームワーク上に構築された, SOOD と呼ばれる, 半教師付きオブジェクト指向物体検出モデルを提案する。
提案した2つの損失をトレーニングした場合,SOODはDOTA-v1.5ベンチマークの様々な設定下で,最先端のSSOD法を超越することを示した。
論文 参考訳(メタデータ) (2023-04-10T11:10:42Z) - Pseudo-OOD training for robust language models [78.15712542481859]
OOD検出は、あらゆる産業規模のアプリケーションに対する信頼性の高い機械学習モデルの鍵となるコンポーネントである。
In-distribution(IND)データを用いて擬似OODサンプルを生成するPOORE-POORE-POSthoc pseudo-Ood Regularizationを提案する。
我々は3つの現実世界の対話システムに関する枠組みを広く評価し、OOD検出における新たな最先端技術を実現した。
論文 参考訳(メタデータ) (2022-10-17T14:32:02Z) - Triggering Failures: Out-Of-Distribution detection by learning from
local adversarial attacks in Semantic Segmentation [76.2621758731288]
セグメンテーションにおけるアウト・オブ・ディストリビューション(OOD)オブジェクトの検出に取り組む。
私たちの主な貢献は、ObsNetと呼ばれる新しいOOD検出アーキテクチャであり、ローカル・アタック(LAA)に基づく専用トレーニングスキームと関連付けられています。
3つの異なるデータセットの文献の最近の10つの手法と比較して,速度と精度の両面で最高の性能が得られることを示す。
論文 参考訳(メタデータ) (2021-08-03T17:09:56Z) - Dynamic Refinement Network for Oriented and Densely Packed Object
Detection [75.29088991850958]
本稿では,機能選択モジュール (FSM) と動的改善ヘッド (DRH) の2つの新しいコンポーネントからなる動的精細化ネットワークを提案する。
我々のFSMは、ニューロンがターゲットオブジェクトの形状や向きに応じて受容野を調整できるのに対して、DRHはオブジェクト認識の方法で動的に予測を洗練させる。
我々は、DOTA、HRSC2016、SKU110K、および我々のSKU110K-Rデータセットを含むいくつかの公開ベンチマークで定量的評価を行う。
論文 参考訳(メタデータ) (2020-05-20T11:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。