論文の概要: LLM-Assisted Red Teaming of Diffusion Models through "Failures Are Fated, But Can Be Faded"
- arxiv url: http://arxiv.org/abs/2410.16738v1
- Date: Tue, 22 Oct 2024 06:46:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:28:06.374721
- Title: LLM-Assisted Red Teaming of Diffusion Models through "Failures Are Fated, But Can Be Faded"
- Title(参考訳): LLMによる拡散モデルのレッドチーム化
- Authors: Som Sagar, Aditya Taparia, Ransalu Senanayake,
- Abstract要約: 『失敗は太っているが、消えることがある』は、事前学習された世代モデルにおける失敗の状況を探究し、構築するための枠組みである。
発見された障害モードから離れることで、障害状況の再構築をより望ましいものにする方法を示します。
- 参考スコア(独自算出の注目度): 7.736445799116692
- License:
- Abstract: In large deep neural networks that seem to perform surprisingly well on many tasks, we also observe a few failures related to accuracy, social biases, and alignment with human values, among others. Therefore, before deploying these models, it is crucial to characterize this failure landscape for engineers to debug or audit models. Nevertheless, it is infeasible to exhaustively test for all possible combinations of factors that could lead to a model's failure. In this paper, we improve the "Failures are fated, but can be faded" framework (arXiv:2406.07145)--a post-hoc method to explore and construct the failure landscape in pre-trained generative models--with a variety of deep reinforcement learning algorithms, screening tests, and LLM-based rewards and state generation. With the aid of limited human feedback, we then demonstrate how to restructure the failure landscape to be more desirable by moving away from the discovered failure modes. We empirically demonstrate the effectiveness of the proposed method on diffusion models. We also highlight the strengths and weaknesses of each algorithm in identifying failure modes.
- Abstract(参考訳): 多くのタスクで驚くほどうまく機能しているように見える大きなディープニューラルネットワークでは、正確性や社会的バイアス、人的価値との整合性に関連するいくつかの障害も観察しています。
したがって、これらのモデルをデプロイする前には、エンジニアがモデルをデバッグしたり、監査したりする上で、この障害環境を特徴付けることが重要です。
それでも、モデルの失敗につながる可能性のあるすべての要因の組み合わせを徹底的にテストすることは不可能である。
本稿では,多種多様な強化学習アルゴリズム,スクリーニングテスト,LLMに基づく報酬と状態生成を併用した,事前学習型生成モデルにおける障害状況の探索と構築のためのポストホック手法であるフレームワーク(arXiv:2406.07145)を改良する。
限られた人間のフィードバックの助けを借りて、発見された障害モードから離れることで、障害状況の再構築をより望ましいものにする方法を実証します。
本研究では,拡散モデルにおける提案手法の有効性を実証的に示す。
また、障害モードを特定する際の各アルゴリズムの長所と短所を強調します。
関連論文リスト
- SINDER: Repairing the Singular Defects of DINOv2 [61.98878352956125]
大規模なデータセットでトレーニングされたビジョントランスフォーマーモデルは、抽出したパッチトークンにアーティファクトを表示することが多い。
本稿では,小さなデータセットのみを用いて構造欠陥を補正するスムーズなスムーズな正規化を提案する。
論文 参考訳(メタデータ) (2024-07-23T20:34:23Z) - Feature Attenuation of Defective Representation Can Resolve Incomplete Masking on Anomaly Detection [1.0358639819750703]
教師なし異常検出(UAD)研究では、計算効率が高くスケーラブルなソリューションを開発する必要がある。
再建・塗り替えのアプローチを再考し、強みと弱みを分析して改善する。
異常再構成の特徴情報を減衰させる2つの層のみを用いるFADeR(Feature Attenuation of Defective Representation)を提案する。
論文 参考訳(メタデータ) (2024-07-05T15:44:53Z) - Failures Are Fated, But Can Be Faded: Characterizing and Mitigating Unwanted Behaviors in Large-Scale Vision and Language Models [7.736445799116692]
多くのタスクで驚くほどうまく機能しているように見える大きなディープニューラルネットワークでは、精度、社会的バイアス、人間の価値観との整合性に関連するいくつかの障害も観察します。
本研究では,事前学習した識別モデルと生成モデルを用いて,エンフディープ強化学習を用いて,障害モードの景観を探索・構築するポストホック手法を提案する。
提案手法の有効性を,コンピュータビジョン,自然言語処理,視覚言語タスクで実証的に示す。
論文 参考訳(メタデータ) (2024-06-11T10:45:41Z) - Degradation Modeling and Prognostic Analysis Under Unknown Failure Modes [17.72961616186932]
操作ユニットは複雑なシステムで様々な障害モードを経験します。
現在の予測的アプローチは、劣化中の障害モードを無視したり、既知の障害モードラベルを仮定する。
センサ信号の高次元性と複雑な関係は、故障モードを正確に識別することが困難である。
論文 参考訳(メタデータ) (2024-02-29T15:57:09Z) - Identifying and Mitigating Model Failures through Few-shot CLIP-aided
Diffusion Generation [65.268245109828]
本稿では,突発的相関に付随する障害モードのテキスト記述を生成するためのエンドツーエンドフレームワークを提案する。
これらの記述は拡散モデルのような生成モデルを用いて合成データを生成するのに使うことができる。
本実験では, ハードサブポピュレーションの精度(sim textbf21%$)が著しく向上した。
論文 参考訳(メタデータ) (2023-12-09T04:43:49Z) - Lightweight Diffusion Models with Distillation-Based Block Neural
Architecture Search [55.41583104734349]
拡散蒸留に基づくブロックワイドニューラルネットワークサーチ(NAS)により拡散モデルの構造的冗長性を自動的に除去することを提案する。
事前訓練を受けた教師がより多い場合、DiffNASを利用して、教師よりもパフォーマンスが良い最小限のアーキテクチャを探索する。
従来のブロックワイズNAS法とは異なり、DiffNASはブロックワイズ局所探索戦略と、関節ダイナミックロスを伴う再訓練戦略を含んでいる。
論文 参考訳(メタデータ) (2023-11-08T12:56:59Z) - RAFT: Reward rAnked FineTuning for Generative Foundation Model Alignment [32.752633250862694]
生成基礎モデルは、広範囲の教師なしのトレーニングデータから生じる暗黙のバイアスに影響を受けやすい。
我々は、生成モデルを効果的に整合させるために設計された新しいフレームワーク、Reward rAnked FineTuningを紹介する。
論文 参考訳(メタデータ) (2023-04-13T18:22:40Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z) - Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。
本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。
経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文 参考訳(メタデータ) (2020-06-18T19:04:09Z) - Bootstrapped model learning and error correction for planning with
uncertainty in model-based RL [1.370633147306388]
自然の目的は、環境のダイナミクスを正確に反映したモデルを学ぶことである。
本稿では,不確実性を考慮した強化学習エージェントによるモデルミス特定の問題について検討する。
本稿では,将来の状態と報酬の分布を学習するブートストラップ型マルチヘッドニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2020-04-15T15:41:21Z) - Plausible Counterfactuals: Auditing Deep Learning Classifiers with
Realistic Adversarial Examples [84.8370546614042]
ディープラーニングモデルのブラックボックスの性質は、彼らがデータから何を学ぶかについて、未回答の疑問を提起している。
GAN(Generative Adversarial Network)とマルチオブジェクトは、監査されたモデルに妥当な攻撃を与えるために使用される。
その実用性は人間の顔の分類タスクの中で示され、提案されたフレームワークの潜在的可能性を明らかにしている。
論文 参考訳(メタデータ) (2020-03-25T11:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。