論文の概要: Ambiguous Images With Human Judgments for Robust Visual Event
Classification
- arxiv url: http://arxiv.org/abs/2210.03102v1
- Date: Thu, 6 Oct 2022 17:52:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 15:34:00.579266
- Title: Ambiguous Images With Human Judgments for Robust Visual Event
Classification
- Title(参考訳): ロバストな視覚イベント分類のための人間の判断による曖昧な画像
- Authors: Kate Sanders, Reno Kriz, Anqi Liu, Benjamin Van Durme
- Abstract要約: 我々はあいまいな画像のデータセットを作成し、それらをビデオから抽出したノイズの多い画像の集合であるSQUID-E(Squidy)を作成する。
すべての画像は、地上の真理値でアノテートされ、テストセットは、人間の不確実性判定でアノテートされる。
このデータセットを用いて、視覚タスクにおける人間の不確実性を特徴づけ、既存の視覚事象分類モデルを評価する。
- 参考スコア(独自算出の注目度): 34.62731821199598
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contemporary vision benchmarks predominantly consider tasks on which humans
can achieve near-perfect performance. However, humans are frequently presented
with visual data that they cannot classify with 100% certainty, and models
trained on standard vision benchmarks achieve low performance when evaluated on
this data. To address this issue, we introduce a procedure for creating
datasets of ambiguous images and use it to produce SQUID-E ("Squidy"), a
collection of noisy images extracted from videos. All images are annotated with
ground truth values and a test set is annotated with human uncertainty
judgments. We use this dataset to characterize human uncertainty in vision
tasks and evaluate existing visual event classification models. Experimental
results suggest that existing vision models are not sufficiently equipped to
provide meaningful outputs for ambiguous images and that datasets of this
nature can be used to assess and improve such models through model training and
direct evaluation of model calibration. These findings motivate large-scale
ambiguous dataset creation and further research focusing on noisy visual data.
- Abstract(参考訳): 現代のビジョンベンチマークは、人間がほぼ完璧なパフォーマンスを達成できるタスクを主に検討している。
しかし、人間は100%確実性で分類できない視覚データをしばしば提示され、標準視覚ベンチマークで訓練されたモデルは、このデータで評価すると低いパフォーマンスを達成する。
この問題に対処するために,ビデオから抽出したノイズの多い画像の集合であるSQUID-E(Squidy)を作成するために,あいまいな画像のデータセットを作成する手順を導入する。
すべての画像は基底真理値でアノテートされ、テストセットは人間の不確実性判断でアノテートされる。
このデータセットを用いて、視覚タスクにおける人間の不確実性を特徴付け、既存の視覚イベント分類モデルを評価する。
実験の結果、既存の視覚モデルは曖昧な画像に対して有意義な出力を提供するのに十分な機能を持たず、モデルトレーニングとモデルキャリブレーションの直接評価を通じて、この性質のデータセットを用いてモデルの評価と改善が可能であることが示唆された。
これらの発見は、大規模な曖昧なデータセットの作成と、ノイズの多い視覚データに焦点を当てたさらなる研究の動機となっている。
関連論文リスト
- LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - Evaluating Multiview Object Consistency in Humans and Image Models [68.36073530804296]
我々は、物体の形状に関するゼロショット視覚的推論を必要とする認知科学の実験的設計を活用する。
我々は500人以上の参加者から行動データの35万件の試行を収集した。
次に、一般的な視覚モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-09-09T17:59:13Z) - Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。
逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。
我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文 参考訳(メタデータ) (2024-06-19T08:07:14Z) - FLORIDA: Fake-looking Real Images Dataset [43.37813040320147]
我々は、偽の外観を示す510個の本物の画像のデータセットをキュレートし、2つのAIモデルを用いて評価を行った。
データセットに適用すると,2つのモデルがサブパー性能を示した。
我々のデータセットは、複雑な視覚刺激を理解する深層学習モデルの能力を評価する貴重なツールとして機能する。
論文 参考訳(メタデータ) (2023-10-29T23:25:10Z) - Revealing the Underlying Patterns: Investigating Dataset Similarity,
Performance, and Generalization [0.0]
教師付きディープラーニングモデルは、特定のタスクで許容可能なパフォーマンスを達成するために、大量のラベル付きデータを必要とする。
モデル動作に関する洞察を得るために、画像イメージ、データセット、画像データセット距離を確立する。
論文 参考訳(メタデータ) (2023-08-07T13:35:53Z) - Evaluating Data Attribution for Text-to-Image Models [62.844382063780365]
我々は,既存の大規模モデルを与えられた模範オブジェクトやスタイルにチューニングする「カストミゼーション」手法による属性評価を行う。
私たちのキーとなる洞察は、これによって、構築によって模範にコンピュータ的に影響される合成画像を効率的に作成できるということです。
問題の本質的な不確実性を考慮することで、一連のトレーニング画像に対してソフトな属性スコアを割り当てることができる。
論文 参考訳(メタデータ) (2023-06-15T17:59:51Z) - DASH: Visual Analytics for Debiasing Image Classification via
User-Driven Synthetic Data Augmentation [27.780618650580923]
画像分類モデルは、訓練データにおいて、入力特徴と出力クラスとの間の無関係な共起に基づいてクラスを予測することをしばしば学習する。
我々は、望ましくない相関を「データバイアス」と呼び、データバイアスを引き起こす視覚的特徴を「バイアス要因」と呼んでいる。
人間の介入なしにバイアスを自動的に識別し緩和することは困難である。
論文 参考訳(メタデータ) (2022-09-14T00:44:41Z) - Vision Models Are More Robust And Fair When Pretrained On Uncurated
Images Without Supervision [38.22842778742829]
差別的な自己教師型学習は、インターネット画像の任意のランダムなグループでのトレーニングモデルを可能にする。
データ前処理や事前の仮定なしで、何十億ものランダムなイメージでモデルをトレーニングします。
フェアネス、分布シフト、地理的多様性、微粒化認識、画像コピー検出、および多くの画像分類データセットを含む50以上のベンチマークにおいて、我々のモデル性能を広範囲に研究し、検証した。
論文 参考訳(メタデータ) (2022-02-16T22:26:47Z) - Benchmarking human visual search computational models in natural scenes:
models comparison and reference datasets [0.0]
我々は、自然の場面で利用可能な最先端のビジュアル検索モデルを選択し、異なるデータセットで評価する。
本稿では,ニューラルネットワークに基づくビジュアルサーチモデルと組み合わせて,理想ベイズ探索法の改良を提案する。
論文 参考訳(メタデータ) (2021-12-10T19:56:45Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Visual Distant Supervision for Scene Graph Generation [66.10579690929623]
シーングラフモデルは通常、大量のラベル付きデータを人間のアノテーションで教師付き学習する必要がある。
本研究では,人間ラベルデータを用いずにシーングラフモデルを訓練できる視覚関係学習の新しいパラダイムである視覚遠方監視を提案する。
包括的な実験結果から、我々の遠隔監視モデルは、弱い監督と半監督のベースラインよりも優れています。
論文 参考訳(メタデータ) (2021-03-29T06:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。