Fugu-MT 論文翻訳(概要): Discovering Bugs in Vision Models using Off-the-shelf Image Generation and Captioning

論文の概要: Discovering Bugs in Vision Models using Off-the-shelf Image Generation and Captioning

arxiv url: http://arxiv.org/abs/2208.08831v1
Date: Thu, 18 Aug 2022 13:49:10 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-19 12:58:21.296229
Title: Discovering Bugs in Vision Models using Off-the-shelf Image Generation and Captioning
Title（参考訳）: オフザシェルフ画像生成とキャプションを用いた視覚モデルにおけるバグ発見
Authors: Olivia Wiles, Isabela Albuquerque, Sven Gowal
Abstract要約: この研究は、オフザシェルフ、大規模、画像からテキストへ、そしてテキストから画像へのモデルがどのように活用され、自動的に失敗を見つけるかを示す。本質的には、条件付きテキスト・ツー・イメージ生成モデルを使用して、大量の合成的かつ現実的な入力を生成する。
参考スコア（独自算出の注目度）: 25.88974494276895
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automatically discovering failures in vision models under real-world settings remains an open challenge. This work demonstrates how off-the-shelf, large-scale, image-to-text and text-to-image models, trained on vast amounts of data, can be leveraged to automatically find such failures. In essence, a conditional text-to-image generative model is used to generate large amounts of synthetic, yet realistic, inputs given a ground-truth label. Misclassified inputs are clustered and a captioning model is used to describe each cluster. Each cluster's description is used in turn to generate more inputs and assess whether specific clusters induce more failures than expected. We use this pipeline to demonstrate that we can effectively interrogate classifiers trained on ImageNet to find specific failure cases and discover spurious correlations. We also show that we can scale the approach to generate adversarial datasets targeting specific classifier architectures. This work serves as a proof-of-concept demonstrating the utility of large-scale generative models to automatically discover bugs in vision models in an open-ended manner. We also describe a number of limitations and pitfalls related to this approach.
Abstract（参考訳）: 現実の設定下でビジョンモデルの失敗を自動的に発見することは、まだ未解決の課題である。この研究は、大量のデータに基づいてトレーニングされたオフザシェルフ、大規模、画像からテキスト、およびテキストから画像へのモデルがどのように活用され、そのような障害を自動的に見つけることができるかを示す。本質的には、条件付きテキストから画像への生成モデルは、接地ラベルが与えられた大量の合成だが現実的な入力を生成するために使用される。誤分類された入力はクラスタ化され、各クラスタを記述するためにキャプションモデルが使用される。各クラスタの説明は、より多くの入力を生成し、特定のクラスタが期待以上の障害を引き起こすかどうかを評価するために使われる。このパイプラインを使用して、imagenetでトレーニングされた分類器を効果的に問合せして、特定の障害ケースを見つけ、スプリアス相関を見つけることができることを実証する。また、特定の分類器アーキテクチャをターゲットとした逆データセットを生成するアプローチをスケールできることも示しています。この研究は、ビジョンモデルのバグを自動的にオープンに発見する大規模な生成モデルの有用性を示す概念実証として機能する。このアプローチに関連するいくつかの制限と落とし穴についても述べています。

関連論文リスト

SafeFix: Targeted Model Repair via Controlled Image Generation [5.4185493412773456]
我々は、解釈可能な障害帰属パイプラインの上に構築されたモデル修復モジュールを導入する。提案手法では, 条件付きテキスト・ツー・イメージモデルを用いて, セマンティックに忠実で, ターゲットとした画像を生成する。この稀なケース拡張合成データセットを用いて視覚モデルを再訓練することにより、稀なケースに関連するエラーを著しく低減する。
論文参考訳（メタデータ） (2025-08-12T07:45:25Z)
Low-Biased General Annotated Dataset Generation [62.04202037186855]
低バイアスの一般アノテーション付きデータセット生成フレームワーク(lbGen)を提案する。高価な手作業による収集ではなく,カテゴリアノテーションを用いた低バイアス画像を直接生成することを目的としている。実験結果から,手動ラベル付きデータセットや他の合成データセットと比較して,生成した低バイアスデータセットの利用により,一般化能力の安定が図られた。
論文参考訳（メタデータ） (2024-12-14T13:28:40Z)
Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文参考訳（メタデータ） (2024-10-08T17:59:03Z)
VL4AD: Vision-Language Models Improve Pixel-wise Anomaly Detection [5.66050466694651]
本稿では,既存の異常検知器にVLエンコーダを組み込み,セマンティック・ワイドなVL事前学習を有効活用し,外乱認識を改善することを提案する。また,テキスト・プロンプトによるデータ・トレーニング不要の外部監視を可能にする新たなスコアリング機能を提案する。得られたVL4ADモデルは、広く使用されているベンチマークデータセット上での競合性能を達成する。
論文参考訳（メタデータ） (2024-09-25T20:12:10Z)
Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文参考訳（メタデータ） (2024-06-19T08:07:14Z)
Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文参考訳（メタデータ） (2024-02-07T13:41:53Z)
Identifying and Mitigating Model Failures through Few-shot CLIP-aided Diffusion Generation [65.268245109828]
本稿では,突発的相関に付随する障害モードのテキスト記述を生成するためのエンドツーエンドフレームワークを提案する。これらの記述は拡散モデルのような生成モデルを用いて合成データを生成するのに使うことができる。本実験では, ハードサブポピュレーションの精度(sim textbf21%$)が著しく向上した。
論文参考訳（メタデータ） (2023-12-09T04:43:49Z)
Self-Supervised Open-Ended Classification with Small Visual Language Models [60.23212389067007]
我々は、小さな視覚言語モデルを用いたオープンエンド分類のための数ショットの能力を解放する自己教師型アプローチであるSeCAtを提案する。約1Bパラメータを持つモデルを使用することで、FrozenやBrobAGeといった、はるかに大きなモデルの少数ショット能力より優れています。
論文参考訳（メタデータ） (2023-09-30T21:41:21Z)
Diagnosing and Rectifying Vision Models using Language [31.588965563961573]
最近のコントラスト学習モデルは、強力な視覚分類器を構築するのに適した埋め込み空間を学習できることを実証している。我々の研究は、このマルチモーダル埋め込み空間の明確な利点として、自然言語で視覚分類器を診断する能力を挙げている。提案手法は,ハイエラーデータスライスを発見し,重要な属性を同定し,さらに好ましくないモデルの振る舞いを補正する。
論文参考訳（メタデータ） (2023-02-08T18:59:42Z)
Adaptive Testing of Computer Vision Models [22.213542525825144]
AdaVisionは、ユーザがコヒーレントな障害モードを特定し、修正するのに役立つビジョンモデルをテストするインタラクティブなプロセスである。我々は,AdaVisionのユーザスタディにおいて,最先端の分類,オブジェクト検出,画像キャプションモデルに重大なバグが見つかった場合の有用性と汎用性を実証する。
論文参考訳（メタデータ） (2022-12-06T05:52:31Z)
ClipCrop: Conditioned Cropping Driven by Vision-Language Model [90.95403416150724]
我々は、堅牢でユーザ意図的な収穫アルゴリズムを構築する基盤として、視覚言語モデルを活用している。そこで本研究では,ユーザの意図を反映したテキストや画像クエリを用いて,トリミングを行う手法を開発した。私たちのパイプライン設計では、小さなデータセットでテキスト条件の美学を学習することができます。
論文参考訳（メタデータ） (2022-11-21T14:27:07Z)
Text2Model: Text-based Model Induction for Zero-shot Image Classification [38.704831945753284]
テキスト記述のみを用いてタスクに依存しない分類器を構築するという課題に対処する。クラス記述を受信し,マルチクラスモデルを出力するハイパーネットワークを用いてゼロショット分類器を生成する。本手法は,画像,ポイントクラウド,行動認識など,一連のゼロショット分類タスクにおいて,テキスト記述の範囲を用いて評価する。
論文参考訳（メタデータ） (2022-10-27T05:19:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。