論文の概要: Evaluating the Performance of Open-Vocabulary Object Detection in Low-quality Image
- arxiv url: http://arxiv.org/abs/2512.22801v2
- Date: Fri, 02 Jan 2026 12:29:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 13:15:27.584537
- Title: Evaluating the Performance of Open-Vocabulary Object Detection in Low-quality Image
- Title(参考訳): 低画質画像における開語彙物体検出の性能評価
- Authors: Po-Chih Wu,
- Abstract要約: 実世界の低品質画像をシミュレートする新しいデータセットを提案する。
低レベル画像劣化下では, オープン語彙オブジェクト検出モデルではmAPスコアが有意に低下しなかったが, 高レベル画像劣化下では, 全てのモデルの性能が急激に低下した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-vocabulary object detection enables models to localize and recognize objects beyond a predefined set of categories and is expected to achieve recognition capabilities comparable to human performance. In this study, we aim to evaluate the performance of existing models on open-vocabulary object detection tasks under low-quality image conditions. For this purpose, we introduce a new dataset that simulates low-quality images in the real world. In our evaluation experiment, we find that although open-vocabulary object detection models exhibited no significant decrease in mAP scores under low-level image degradation, the performance of all models dropped sharply under high-level image degradation. OWLv2 models consistently performed better across different types of degradation, while OWL-ViT, GroundingDINO, and Detic showed significant performance declines. We will release our dataset and codes to facilitate future studies.
- Abstract(参考訳): オープンボキャブラリオブジェクト検出により、モデルが事前に定義されたカテゴリのセットを超えてオブジェクトをローカライズし、認識することが可能になり、人間のパフォーマンスに匹敵する認識能力を達成することが期待される。
本研究では,低品質の画像条件下でのオープン語彙オブジェクト検出タスクにおける既存モデルの性能を評価することを目的とする。
そこで本研究では,現実世界の低画質画像をシミュレートする新しいデータセットを提案する。
評価実験では,低レベルの画像劣化下では,オープン語彙オブジェクト検出モデルではmAPスコアが顕著に低下しなかったが,高レベルの画像劣化では,全てのモデルの性能が急激に低下した。
OWL-ViT, GroundingDINO, Deticは性能が大幅に低下した。
将来の研究を促進するために、データセットとコードをリリースします。
関連論文リスト
- Human Body Restoration with One-Step Diffusion Model and A New Benchmark [74.66514054623669]
本稿では,高品質な自動収穫・フィルタリング(HQ-ACF)パイプラインを提案する。
このパイプラインは、既存のオブジェクト検出データセットやその他のラベル付けされていないイメージを活用して、高品質な人間の画像を自動的にトリミングし、フィルタリングする。
また,人体修復のための新しい1段階拡散モデルであるemphOSDHumanを提案する。
論文 参考訳(メタデータ) (2025-02-03T14:48:40Z) - Explorations in Self-Supervised Learning: Dataset Composition Testing for Object Classification [0.0]
対象分類のための自己教師付き学習(SSL)モデルの性能に及ぼす画像特性の異なるデータセットを用いたサンプリングと事前学習の影響について検討する。
低解像度画像では深度事前学習モデルの方が有効であるのに対し、RGB事前学習モデルは高解像度画像ではより優れていた。
論文 参考訳(メタデータ) (2024-12-01T11:21:01Z) - Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。
本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。
本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文 参考訳(メタデータ) (2024-11-28T13:04:45Z) - Few-shot target-driven instance detection based on open-vocabulary object detection models [1.0749601922718608]
オープンボキャブラリオブジェクト検出モデルは、同じ潜在空間において、より近い視覚的およびテキスト的概念をもたらす。
テキスト記述を必要とせずに,後者をワンショットあるいは少数ショットのオブジェクト認識モデルに変換する軽量な手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T14:03:15Z) - Innovative Horizons in Aerial Imagery: LSKNet Meets DiffusionDet for
Advanced Object Detection [55.2480439325792]
本稿では,LSKNetのバックボーンをDiffusionDetヘッドに統合したオブジェクト検出モデルの詳細な評価を行う。
提案手法は平均精度(MAP)を約45.7%向上させる。
この進歩は、提案された修正の有効性を強調し、航空画像解析の新しいベンチマークを設定する。
論文 参考訳(メタデータ) (2023-11-21T19:49:13Z) - Ambiguous Images With Human Judgments for Robust Visual Event
Classification [34.62731821199598]
我々はあいまいな画像のデータセットを作成し、それらをビデオから抽出したノイズの多い画像の集合であるSQUID-E(Squidy)を作成する。
すべての画像は、地上の真理値でアノテートされ、テストセットは、人間の不確実性判定でアノテートされる。
このデータセットを用いて、視覚タスクにおける人間の不確実性を特徴づけ、既存の視覚事象分類モデルを評価する。
論文 参考訳(メタデータ) (2022-10-06T17:52:20Z) - Exploring Resolution and Degradation Clues as Self-supervised Signal for
Low Quality Object Detection [77.3530907443279]
劣化した低解像度画像中の物体を検出するための,新しい自己教師型フレームワークを提案する。
本手法は, 既存手法と比較して, 異変劣化状況に直面する場合に比べ, 優れた性能を示した。
論文 参考訳(メタデータ) (2022-08-05T09:36:13Z) - NOD: Taking a Closer Look at Detection under Extreme Low-Light
Conditions with Night Object Detection Dataset [25.29013780731876]
低い光は、以前考えられていたよりもマシン認知にとって困難である。
夜間に街路で撮影されたダイナミックなシーンを示す大規模なデータセットを提示する。
本稿では,画像強調モジュールをオブジェクト検出フレームワークと2つの新しいデータ拡張手法に組み込むことを提案する。
論文 参考訳(メタデータ) (2021-10-20T03:44:04Z) - Detection and Captioning with Unseen Object Classes [12.894104422808242]
テストイメージには、対応する視覚的またはテキスト的トレーニング例のない視覚的オブジェクトを含むことができる。
一般化されたゼロショット検出モデルとテンプレートに基づく文生成モデルに基づく検出駆動型アプローチを提案する。
実験の結果,提案したゼロショット検出モデルにより,MS-COCOデータセット上での最先端性能が得られた。
論文 参考訳(メタデータ) (2021-08-13T10:43:20Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Contemplating real-world object classification [53.10151901863263]
Barbuらが最近提案したObjectNetデータセットを再分析した。
日常の状況に物を含むこと。
分離されたオブジェクトにディープモデルを適用すると、元の論文のようにシーン全体ではなく、約20~30%の性能改善が得られます。
論文 参考訳(メタデータ) (2021-03-08T23:29:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。