論文の概要: DiagViB-6: A Diagnostic Benchmark Suite for Vision Models in the
Presence of Shortcut and Generalization Opportunities
- arxiv url: http://arxiv.org/abs/2108.05779v1
- Date: Thu, 12 Aug 2021 14:43:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-13 20:14:37.013182
- Title: DiagViB-6: A Diagnostic Benchmark Suite for Vision Models in the
Presence of Shortcut and Generalization Opportunities
- Title(参考訳): DiagViB-6:ショートカットと一般化の機会を考慮した視覚モデル診断ベンチマークスイート
- Authors: Elias Eulig, Piyapat Saranrittichai, Chaithanya Kumar Mummadi, Kilian
Rambach, William Beluch, Xiahan Shi, Volker Fischer
- Abstract要約: 画像分類のための一般的なディープニューラルネットワーク(DNN)は、予測的かつ容易に表現できる視覚因子の形で、ショートカット機会(SO)に依存していることを示す。
これはショートカット学習と呼ばれ、一般化の障害につながる。
本稿では,ネットワークのショートカット脆弱性と一般化能力を研究するために,診断ビジョンベンチマークスイートDiagViB-6を紹介する。
- 参考スコア(独自算出の注目度): 6.650523212504001
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Common deep neural networks (DNNs) for image classification have been shown
to rely on shortcut opportunities (SO) in the form of predictive and
easy-to-represent visual factors. This is known as shortcut learning and leads
to impaired generalization. In this work, we show that common DNNs also suffer
from shortcut learning when predicting only basic visual object factors of
variation (FoV) such as shape, color, or texture. We argue that besides
shortcut opportunities, generalization opportunities (GO) are also an inherent
part of real-world vision data and arise from partial independence between
predicted classes and FoVs. We also argue that it is necessary for DNNs to
exploit GO to overcome shortcut learning. Our core contribution is to introduce
the Diagnostic Vision Benchmark suite DiagViB-6, which includes datasets and
metrics to study a network's shortcut vulnerability and generalization
capability for six independent FoV. In particular, DiagViB-6 allows controlling
the type and degree of SO and GO in a dataset. We benchmark a wide range of
popular vision architectures and show that they can exploit GO only to a
limited extent.
- Abstract(参考訳): 画像分類のための一般的なディープニューラルネットワーク(DNN)は、予測的かつ容易に表現できる視覚因子の形でショートカット機会(SO)に依存することが示されている。
これはショートカット学習と呼ばれ、一般化の障害につながる。
本研究は, 形状, 色, テクスチャなどの変化(FoV)の基本的な視覚的要因のみを予測する場合, 一般的なDNNもショートカット学習に苦しむことを示す。
我々は、ショートカット機会の他に、一般化機会(GO)は現実の視覚データの本質的な部分であり、予測クラスとFoV間の部分的な独立から生じると論じる。
また,短絡学習を克服するためには,DNNがGOを活用する必要があるとも主張する。
ネットワークの近道脆弱性と6つの独立したfovの一般化機能を研究するためのデータセットとメトリクスを含む、診断ビジョンベンチマークスイートdiagvib-6の導入が中心です。
特にDiagViB-6では、データセット内のSOとGOの型と度合いを制御できる。
私たちは幅広い一般的なビジョンアーキテクチャをベンチマークし、goを限られた範囲で活用できることを示しています。
関連論文リスト
- Gaze-directed Vision GNN for Mitigating Shortcut Learning in Medical Image [6.31072075551707]
GD-ViG(GD-ViG)と呼ばれる新しい視線指向ビジョンGNNを提案し,放射線科医の視覚パターンを専門知識として活用する。
2つの公開医療画像データセットの実験は、GD-ViGが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2024-06-20T07:16:41Z) - Learning Object-Centric Representation via Reverse Hierarchy Guidance [73.05170419085796]
OCL(Object-Centric Learning)は、ニューラルネットワークが視覚的なシーンで個々のオブジェクトを識別できるようにする。
RHGNetは、トレーニングと推論プロセスにおいて、さまざまな方法で機能するトップダウンパスを導入している。
我々のモデルは、よく使われる複数のデータセット上でSOTA性能を達成する。
論文 参考訳(メタデータ) (2024-05-17T07:48:27Z) - Revisiting Few-Shot Object Detection with Vision-Language Models [49.79495118650838]
我々は、最近の基礎視覚言語モデル(VLM)の文脈で、少数ショットオブジェクト検出(FSOD)のタスクを再考する。
我々は,任意の外部データ上で事前学習された検出器を評価する新しいベンチマークプロトコルであるFoundational FSODを提案する。
CVPR 2024 Foundational FSOD コンペティションについて論じ,コミュニティからの洞察を共有した。
論文 参考訳(メタデータ) (2023-12-22T07:42:00Z) - Open-Vocabulary Animal Keypoint Detection with Semantic-feature Matching [74.75284453828017]
Open-Vocabulary Keypoint Detection (OVKD)タスクは、任意の種類のキーポイントを特定するためにテキストプロンプトを使用するように設計されている。
セマンティック・フェールマッチング(KDSM)を用いた開語彙キーポイント検出(Open-Vocabulary Keypoint Detection)という新しいフレームワークを開発した。
このフレームワークは視覚と言語モデルを組み合わせて、言語機能とローカルキーポイント視覚機能との相互作用を作成する。
論文 参考訳(メタデータ) (2023-10-08T07:42:41Z) - Visual Recognition with Deep Nearest Centroids [57.35144702563746]
我々は、概念的にエレガントで驚くほど効果的な大規模視覚認識ネットワークである深部セントロイド(DNC)を考案した。
パラメトリックと比較すると、DNCは画像分類(CIFAR-10, ImageNet)に優れ、画像認識(ADE20K, Cityscapes)を大いに起動する。
論文 参考訳(メタデータ) (2022-09-15T15:47:31Z) - Rectify ViT Shortcut Learning by Visual Saliency [40.55418820114868]
ショートカット学習は一般的だが、ディープラーニングモデルには有害である。
本研究では,ショートカット学習の精度向上を目的とした,新規かつ効果的なサリエンシ誘導型視覚変換器(SGT)モデルを提案する。
論文 参考訳(メタデータ) (2022-06-17T05:54:07Z) - Where to Look: A Unified Attention Model for Visual Recognition with
Reinforcement Learning [5.247711598719703]
視覚的注意を繰り返すために,トップダウンとボトムアップを一体化することを提案する。
我々のモデルは、画像ピラミッドとQラーニングを利用して、トップダウンアテンションメカニズムにおける関心領域を選択する。
我々は、エンドツーエンドの強化学習フレームワークでモデルをトレーニングし、視覚的分類タスクにおける手法の評価を行う。
論文 参考訳(メタデータ) (2021-11-13T18:44:50Z) - Bag of Tricks for Training Deeper Graph Neural Networks: A Comprehensive
Benchmark Study [100.27567794045045]
ディープグラフニューラルネットワーク(GNN)のトレーニングは、非常に難しい。
我々は、深層GNNの「トリック」を評価するための最初の公正かつ再現可能なベンチマークを示す。
論文 参考訳(メタデータ) (2021-08-24T05:00:37Z) - Spatio-Temporal Inception Graph Convolutional Networks for
Skeleton-Based Action Recognition [126.51241919472356]
我々はスケルトンに基づく行動認識のためのシンプルで高度にモジュール化されたグラフ畳み込みネットワークアーキテクチャを設計する。
ネットワークは,空間的および時間的経路から多粒度情報を集約するビルディングブロックを繰り返すことで構築される。
論文 参考訳(メタデータ) (2020-11-26T14:43:04Z) - One-vs-Rest Network-based Deep Probability Model for Open Set
Recognition [6.85316573653194]
インテリジェントな自己学習システムは、既知の例と未知の例を区別することができるべきである。
1-vs-restネットワークは、よく使われるSoftMaxレイヤよりも、未知の例に対して、より有益な隠れ表現を提供することができる。
提案した確率モデルは、オープンセットの分類シナリオにおいて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-04-17T05:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。