論文の概要: Identifying and Mitigating Model Failures through Few-shot CLIP-aided
Diffusion Generation
- arxiv url: http://arxiv.org/abs/2312.05464v1
- Date: Sat, 9 Dec 2023 04:43:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 20:32:01.715473
- Title: Identifying and Mitigating Model Failures through Few-shot CLIP-aided
Diffusion Generation
- Title(参考訳): フルショットCLIP支援拡散生成によるモデル故障の同定と緩和
- Authors: Atoosa Chegini, Soheil Feizi
- Abstract要約: 本稿では,突発的相関に付随する障害モードのテキスト記述を生成するためのエンドツーエンドフレームワークを提案する。
これらの記述は拡散モデルのような生成モデルを用いて合成データを生成するのに使うことができる。
本実験では, ハードサブポピュレーションの精度(sim textbf21%$)が著しく向上した。
- 参考スコア(独自算出の注目度): 65.268245109828
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning models can encounter unexpected failures, especially when
dealing with challenging sub-populations. One common reason for these failures
is the occurrence of objects in backgrounds that are rarely seen during
training. To gain a better understanding of these failure modes,
human-interpretable descriptions are crucial for further analysis and
improvement which is expensive. In this study, we propose an end-to-end
framework that utilizes the capabilities of large language models (ChatGPT) and
vision-language deep models (CLIP) to generate text descriptions of failure
modes associated with spurious correlations (e.g. rarely seen backgrounds)
without human-in-the-loop intervention. These descriptions can be used to
generate synthetic data using generative models, such as diffusion models. The
model can now use this generated data to learn from its weaknesses and enhance
its performance on backgrounds that are uncommon for each class of data. Our
approach serves as a broad solution, promising progress in comprehending model
failure modes and strengthening deep learning models across a wide range of
failure scenarios (e.g. bacckgrounds, colors) automatically in a few-shot
manner. Our experiments have shown remarkable \textbf{improvements in accuracy
($\sim \textbf{21%}$)} on hard sub-populations (particularly for wrong
background association) across $40$ different models, such as ResNets,
EfficientNets, DenseNets, Vision Transformer (ViT), SwAVs, MoCos, DINOs, and
CLIPs on various datasets such as ImageNet-1000, CIFAR-10, and CIFAR-100.
- Abstract(参考訳): ディープラーニングモデルは予期せぬ失敗に遭遇する可能性がある。
これらの失敗の一般的な理由は、トレーニング中にめったに見られないバックグラウンドのオブジェクトの発生である。
これらの障害モードをよりよく理解するためには、人間解釈可能な記述がコストのかかるさらなる分析と改善に不可欠である。
本研究では,大規模言語モデル (chatgpt) と視覚言語深層モデル (clip) の機能を活用し,ヒューマン・イン・ザ・ループの介入なしに,スプリアス相関(例:滅多に見られる背景)に関連する障害モードのテキスト記述を生成するエンド・ツー・エンドのフレームワークを提案する。
これらの記述は拡散モデルのような生成モデルを用いて合成データを生成するのに使うことができる。
モデルは、この生成されたデータを使用して、その弱点から学び、各クラスのデータで珍しいバックグラウンドのパフォーマンスを向上させることができる。
私たちのアプローチは幅広いソリューションとして機能し、モデル障害モードの解釈の進歩を約束し、広範囲の障害シナリオ(例えば、バックグラウンドや色)を数ショットで自動的に深層学習モデルを強化する。
私たちの実験では、resnets, efficientnets, densenets, vision transformer (vit), swavs, mocos, dinos, clips on various datasets(imagenet-1000, cifar-10, cifar-100)などの40ドルの異なるモデルに対して、ハードサブポピュレーション(特に間違ったバックグラウンドアソシエーション)において、注目すべき \textbf{improvements(\sim \textbf{21%}$)を示しました。
関連論文リスト
- Stealing the Invisible: Unveiling Pre-Trained CNN Models through
Adversarial Examples and Timing Side-Channels [14.222432788661914]
本稿では,逆画像の分類パターンをモデルから盗む手段として利用することの観察に基づくアプローチを提案する。
提案手法は,様々なモデルにまたがる様々な逆画像の誤分類を利用して,いくつかの有名な畳み込みニューラルネットワーク(CNN)と視覚変換器(ViT)アーキテクチャを指紋化する。
論文 参考訳(メタデータ) (2024-02-19T08:47:20Z) - Steganographic Capacity of Deep Learning Models [12.974139332068491]
いくつかの学習モデルのステガノグラフィー能力について考察する。
我々は,難解なマルウェア分類問題に対して,多層パーセプトロン(MLP),畳み込みニューラルネットワーク(CNN),トランスフォーマーモデルを訓練する。
テストした学習モデルのステガノグラフィー能力は驚くほど高く,いずれの場合も,モデル性能が急速に低下する明確なしきい値が存在することがわかった。
論文 参考訳(メタデータ) (2023-06-25T13:43:35Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - The Curse of Recursion: Training on Generated Data Makes Models Forget [70.02793975243212]
大規模言語モデル(LLM)が存続し、オンラインテキストと画像のエコシステム全体に劇的な変化をもたらすだろう。
トレーニングにおけるモデル生成コンテンツの使用は、元のコンテンツ分布の尾部が消える結果のモデルに不可逆的な欠陥を引き起こす。
論文 参考訳(メタデータ) (2023-05-27T15:10:41Z) - LLM2Loss: Leveraging Language Models for Explainable Model Diagnostics [5.33024001730262]
我々は、失敗とバイアスのモデルパターンに関するセマンティックな洞察を提供するアプローチを提案する。
このような軽量モデルのアンサンブルを用いて,ブラックボックスモデルの性能に関する洞察を得られることを示す。
論文 参考訳(メタデータ) (2023-05-04T23:54:37Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - An Empirical Study of Deep Learning Models for Vulnerability Detection [4.243592852049963]
我々は、広く使われている2つの脆弱性検出データセット上で、最先端の9つのディープラーニングモデルを調査し、再現した。
モデル能力,トレーニングデータ,モデル解釈について検討した。
我々の研究結果は、モデル結果の理解を深め、トレーニングデータ作成のガイダンスを提供し、モデルの堅牢性を向上させるのに役立つ。
論文 参考訳(メタデータ) (2022-12-15T19:49:34Z) - Discovering Bugs in Vision Models using Off-the-shelf Image Generation
and Captioning [25.88974494276895]
この研究は、オフザシェルフ、大規模、画像からテキストへ、そしてテキストから画像へのモデルがどのように活用され、自動的に失敗を見つけるかを示す。
本質的には、条件付きテキスト・ツー・イメージ生成モデルを使用して、大量の合成的かつ現実的な入力を生成する。
論文 参考訳(メタデータ) (2022-08-18T13:49:10Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z) - Sufficiently Accurate Model Learning for Planning [119.80502738709937]
本稿では,制約付きSufficiently Accurateモデル学習手法を提案する。
これはそのような問題の例を示し、いくつかの近似解がいかに近いかという定理を提示する。
近似解の質は、関数のパラメータ化、損失と制約関数の滑らかさ、モデル学習におけるサンプルの数に依存する。
論文 参考訳(メタデータ) (2021-02-11T16:27:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。