論文の概要: SNAP: A Benchmark for Testing the Effects of Capture Conditions on Fundamental Vision Tasks
- arxiv url: http://arxiv.org/abs/2505.15628v1
- Date: Wed, 21 May 2025 15:14:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.728173
- Title: SNAP: A Benchmark for Testing the Effects of Capture Conditions on Fundamental Vision Tasks
- Title(参考訳): SNAP: キャプチャ条件が基本的な視覚課題に及ぼす影響のベンチマーク
- Authors: Iuliia Kotseruba, John K. Tsotsos,
- Abstract要約: カメラパラメータや照明などの捕捉条件が3つの視覚課題におけるディープラーニングモデルの性能に与える影響を解析する。
我々は、制御された照明条件下で撮影されたオブジェクトの画像と、密集したカメラ設定からなる新しいベンチマークSNAPを作成する。
以上の結果から,コンピュータビジョンデータセットのバイアスが大きく,このデータに基づいてトレーニングされたモデルでは,露呈した画像でも人間の精度が得られず,カメラ設定の大きな露出変化と微小変動の両方の影響を受けやすいことがわかった。
- 参考スコア(独自算出の注目度): 12.246649738388388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalization of deep-learning-based (DL) computer vision algorithms to various image perturbations is hard to establish and remains an active area of research. The majority of past analyses focused on the images already captured, whereas effects of the image formation pipeline and environment are less studied. In this paper, we address this issue by analyzing the impact of capture conditions, such as camera parameters and lighting, on DL model performance on 3 vision tasks -- image classification, object detection, and visual question answering (VQA). To this end, we assess capture bias in common vision datasets and create a new benchmark, SNAP (for $\textbf{S}$hutter speed, ISO se$\textbf{N}$sitivity, and $\textbf{AP}$erture), consisting of images of objects taken under controlled lighting conditions and with densely sampled camera settings. We then evaluate a large number of DL vision models and show the effects of capture conditions on each selected vision task. Lastly, we conduct an experiment to establish a human baseline for the VQA task. Our results show that computer vision datasets are significantly biased, the models trained on this data do not reach human accuracy even on the well-exposed images, and are susceptible to both major exposure changes and minute variations of camera settings. Code and data can be found at https://github.com/ykotseruba/SNAP
- Abstract(参考訳): 深層学習に基づくコンピュータビジョンアルゴリズムの様々な画像摂動への一般化は、確立が困難であり、研究の活発な領域である。
画像形成パイプラインと環境の影響は少ないが、過去の分析の大部分は、既に捉えた画像に焦点をあてたものだった。
本稿では,画像分類,オブジェクト検出,視覚質問応答(VQA)の3つの視覚課題における,カメラパラメータや照明などの捕捉条件がDLモデル性能に与える影響を分析することで,この問題に対処する。
この目的のために、一般的な視覚データセットにおけるキャプチャバイアスを評価し、コントロールされた照明条件下で撮影されたオブジェクトの画像と密にサンプリングされたカメラ設定からなるSNAP($\textbf{S}$hutter speed, ISO se$\textbf{N}$sitivity, $\textbf{AP}$erture)という新しいベンチマークを作成する。
次に、多数のDLビジョンモデルを評価し、選択した視覚タスクに対するキャプチャ条件の影響を示す。
最後に,VQAタスクの人為的ベースラインを確立する実験を行う。
以上の結果から,コンピュータビジョンデータセットのバイアスが大きく,このデータに基づいてトレーニングされたモデルでは,露呈した画像でも人間の精度が得られず,カメラ設定の大きな露出変化と微小変動の両方の影響を受けやすいことがわかった。
コードとデータはhttps://github.com/ykotseruba/SNAPで確認できる。
関連論文リスト
- Adaptive Camera Sensor for Vision Models [4.566795168995489]
Lensは、モデルの観点から高品質な画像をキャプチャすることで、モデル性能を向上させる新しいカメラセンサ制御方法である。
LensのコアとなるVisiTは、トレーニング不要で、モデル固有の品質指標で、テスト時に個々の未ラベルのサンプルを評価する。
Lensを検証するために、様々なセンサと照明条件から自然摂動をキャプチャする新しいベンチマークデータセットであるImageNet-ES Diverseを紹介する。
論文 参考訳(メタデータ) (2025-03-04T01:20:23Z) - BEHAVIOR Vision Suite: Customizable Dataset Generation via Simulation [57.40024206484446]
我々は、コンピュータビジョンモデルの体系的評価のために、完全にカスタマイズされた合成データを生成するためのツールと資産のセットであるBEHAVIOR Vision Suite(BVS)を紹介する。
BVSはシーンレベルで多数の調整可能なパラメータをサポートする。
アプリケーションシナリオを3つ紹介する。
論文 参考訳(メタデータ) (2024-05-15T17:57:56Z) - Visual Context-Aware Person Fall Detection [52.49277799455569]
画像中の個人とオブジェクトを半自動分離するセグメンテーションパイプラインを提案する。
ベッド、椅子、車椅子などの背景オブジェクトは、転倒検知システムに挑戦し、誤ったポジティブアラームを引き起こす。
トレーニング中のオブジェクト固有のコンテキスト変換が、この課題を効果的に軽減することを示す。
論文 参考訳(メタデータ) (2024-04-11T19:06:36Z) - Foveation in the Era of Deep Learning [6.602118206533142]
本稿では,グラフ畳み込みネットワークを利用してフェーブ化された画像を処理する,エンドツーエンドで微分可能なアクティブ・ビジョン・アーキテクチャを提案する。
我々のモデルは、分類に関連する画像の領域に反復的に出席することを学ぶ。
我々のモデルは最先端のCNNと、同等のパラメータと与えられたピクセルや予算の視覚アーキテクチャより優れています。
論文 参考訳(メタデータ) (2023-12-03T16:48:09Z) - An Ensemble Model for Distorted Images in Real Scenarios [0.0]
本稿では,オブジェクト検出器YOLOv7を用いてCDCOCOデータセットから歪み画像を検出する。
慎重に設計した最適化により,CDCOCOテストセット上での優れた性能を実現する。
我々のデノナイジング検出モデルは、歪んだ画像をデノナイズし、修復することができるため、様々な現実のシナリオや環境において有用である。
論文 参考訳(メタデータ) (2023-09-26T15:12:55Z) - Ambiguous Images With Human Judgments for Robust Visual Event
Classification [34.62731821199598]
我々はあいまいな画像のデータセットを作成し、それらをビデオから抽出したノイズの多い画像の集合であるSQUID-E(Squidy)を作成する。
すべての画像は、地上の真理値でアノテートされ、テストセットは、人間の不確実性判定でアノテートされる。
このデータセットを用いて、視覚タスクにおける人間の不確実性を特徴づけ、既存の視覚事象分類モデルを評価する。
論文 参考訳(メタデータ) (2022-10-06T17:52:20Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z) - Validation of object detection in UAV-based images using synthetic data [9.189702268557483]
UAVベースの検出のための機械学習(ML)モデルは、UAVアプリケーションとは無関係なタスクのためにキュレートされたデータを使用して検証されることが多い。
このようなエラーは、UAVの画像と訓練中の画像との間の画像条件の違いによって生じる。
本研究は,ゲームエンジンを用いて生成した合成データを用いて,異なるUAV画像条件が検出性能に与える影響を理解することに焦点を当てた。
論文 参考訳(メタデータ) (2022-01-17T20:56:56Z) - One-Shot Object Affordance Detection in the Wild [76.46484684007706]
Affordance Detectionは、画像内のオブジェクトの潜在的なアクション可能性を特定することを指す。
我々は、人間の行動目的を推定し、それを転送して、すべての候補画像から共通価格を検出するワンショットアフォーダンス検出ネットワーク(OSAD-Net)を考案する。
複雑なシーンと豊富なアノテーションによって、当社のPADv2データセットは、アベイランス検出メソッドをベンチマークするためのテストベッドとして使用することができます。
論文 参考訳(メタデータ) (2021-08-08T14:53:10Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Contemplating real-world object classification [53.10151901863263]
Barbuらが最近提案したObjectNetデータセットを再分析した。
日常の状況に物を含むこと。
分離されたオブジェクトにディープモデルを適用すると、元の論文のようにシーン全体ではなく、約20~30%の性能改善が得られます。
論文 参考訳(メタデータ) (2021-03-08T23:29:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。