論文の概要: Discovering Bugs in Vision Models using Off-the-shelf Image Generation
and Captioning
- arxiv url: http://arxiv.org/abs/2208.08831v2
- Date: Thu, 11 May 2023 17:13:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-12 18:57:58.276078
- Title: Discovering Bugs in Vision Models using Off-the-shelf Image Generation
and Captioning
- Title(参考訳): オフザシェルフ画像生成とキャプションを用いた視覚モデルにおけるバグ発見
- Authors: Olivia Wiles, Isabela Albuquerque, Sven Gowal
- Abstract要約: この研究は、オフザシェルフ、大規模、画像からテキストへ、そしてテキストから画像へのモデルがどのように活用され、自動的に失敗を見つけるかを示す。
本質的には、条件付きテキスト・ツー・イメージ生成モデルを使用して、大量の合成的かつ現実的な入力を生成する。
- 参考スコア(独自算出の注目度): 25.88974494276895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatically discovering failures in vision models under real-world settings
remains an open challenge. This work demonstrates how off-the-shelf,
large-scale, image-to-text and text-to-image models, trained on vast amounts of
data, can be leveraged to automatically find such failures. In essence, a
conditional text-to-image generative model is used to generate large amounts of
synthetic, yet realistic, inputs given a ground-truth label. Misclassified
inputs are clustered and a captioning model is used to describe each cluster.
Each cluster's description is used in turn to generate more inputs and assess
whether specific clusters induce more failures than expected. We use this
pipeline to demonstrate that we can effectively interrogate classifiers trained
on ImageNet to find specific failure cases and discover spurious correlations.
We also show that we can scale the approach to generate adversarial datasets
targeting specific classifier architectures. This work serves as a
proof-of-concept demonstrating the utility of large-scale generative models to
automatically discover bugs in vision models in an open-ended manner. We also
describe a number of limitations and pitfalls related to this approach.
- Abstract(参考訳): 現実の設定下でビジョンモデルの失敗を自動的に発見することは、まだ未解決の課題である。
この研究は、大量のデータに基づいてトレーニングされたオフザシェルフ、大規模、画像からテキスト、およびテキストから画像へのモデルがどのように活用され、そのような障害を自動的に見つけることができるかを示す。
本質的には、条件付きテキストから画像への生成モデルは、接地ラベルが与えられた大量の合成だが現実的な入力を生成するために使用される。
誤分類された入力はクラスタ化され、各クラスタを記述するためにキャプションモデルが使用される。
各クラスタの説明は、より多くの入力を生成し、特定のクラスタが期待以上の障害を引き起こすかどうかを評価するために使われる。
このパイプラインを使用して、imagenetでトレーニングされた分類器を効果的に問合せして、特定の障害ケースを見つけ、スプリアス相関を見つけることができることを実証する。
また、特定の分類器アーキテクチャをターゲットとした逆データセットを生成するアプローチをスケールできることも示しています。
この研究は、ビジョンモデルのバグを自動的にオープンに発見する大規模な生成モデルの有用性を示す概念実証として機能する。
このアプローチに関連するいくつかの制限と落とし穴についても述べています。
関連論文リスト
- Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - VL4AD: Vision-Language Models Improve Pixel-wise Anomaly Detection [5.66050466694651]
本稿では,既存の異常検知器にVLエンコーダを組み込み,セマンティック・ワイドなVL事前学習を有効活用し,外乱認識を改善することを提案する。
また,テキスト・プロンプトによるデータ・トレーニング不要の外部監視を可能にする新たなスコアリング機能を提案する。
得られたVL4ADモデルは、広く使用されているベンチマークデータセット上での競合性能を達成する。
論文 参考訳(メタデータ) (2024-09-25T20:12:10Z) - Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。
逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。
我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文 参考訳(メタデータ) (2024-06-19T08:07:14Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Identifying and Mitigating Model Failures through Few-shot CLIP-aided
Diffusion Generation [65.268245109828]
本稿では,突発的相関に付随する障害モードのテキスト記述を生成するためのエンドツーエンドフレームワークを提案する。
これらの記述は拡散モデルのような生成モデルを用いて合成データを生成するのに使うことができる。
本実験では, ハードサブポピュレーションの精度(sim textbf21%$)が著しく向上した。
論文 参考訳(メタデータ) (2023-12-09T04:43:49Z) - Self-Supervised Open-Ended Classification with Small Visual Language
Models [60.23212389067007]
我々は、小さな視覚言語モデルを用いたオープンエンド分類のための数ショットの能力を解放する自己教師型アプローチであるSeCAtを提案する。
約1Bパラメータを持つモデルを使用することで、FrozenやBrobAGeといった、はるかに大きなモデルの少数ショット能力より優れています。
論文 参考訳(メタデータ) (2023-09-30T21:41:21Z) - Diagnosing and Rectifying Vision Models using Language [31.588965563961573]
最近のコントラスト学習モデルは、強力な視覚分類器を構築するのに適した埋め込み空間を学習できることを実証している。
我々の研究は、このマルチモーダル埋め込み空間の明確な利点として、自然言語で視覚分類器を診断する能力を挙げている。
提案手法は,ハイエラーデータスライスを発見し,重要な属性を同定し,さらに好ましくないモデルの振る舞いを補正する。
論文 参考訳(メタデータ) (2023-02-08T18:59:42Z) - Adaptive Testing of Computer Vision Models [22.213542525825144]
AdaVisionは、ユーザがコヒーレントな障害モードを特定し、修正するのに役立つビジョンモデルをテストするインタラクティブなプロセスである。
我々は,AdaVisionのユーザスタディにおいて,最先端の分類,オブジェクト検出,画像キャプションモデルに重大なバグが見つかった場合の有用性と汎用性を実証する。
論文 参考訳(メタデータ) (2022-12-06T05:52:31Z) - ClipCrop: Conditioned Cropping Driven by Vision-Language Model [90.95403416150724]
我々は、堅牢でユーザ意図的な収穫アルゴリズムを構築する基盤として、視覚言語モデルを活用している。
そこで本研究では,ユーザの意図を反映したテキストや画像クエリを用いて,トリミングを行う手法を開発した。
私たちのパイプライン設計では、小さなデータセットでテキスト条件の美学を学習することができます。
論文 参考訳(メタデータ) (2022-11-21T14:27:07Z) - Text2Model: Text-based Model Induction for Zero-shot Image Classification [38.704831945753284]
テキスト記述のみを用いてタスクに依存しない分類器を構築するという課題に対処する。
クラス記述を受信し,マルチクラスモデルを出力するハイパーネットワークを用いてゼロショット分類器を生成する。
本手法は,画像,ポイントクラウド,行動認識など,一連のゼロショット分類タスクにおいて,テキスト記述の範囲を用いて評価する。
論文 参考訳(メタデータ) (2022-10-27T05:19:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。