論文の概要: DiffInject: Revisiting Debias via Synthetic Data Generation using Diffusion-based Style Injection
- arxiv url: http://arxiv.org/abs/2406.06134v1
- Date: Mon, 10 Jun 2024 09:45:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 14:27:16.903992
- Title: DiffInject: Revisiting Debias via Synthetic Data Generation using Diffusion-based Style Injection
- Title(参考訳): ディフインジェクション:拡散型スタイルインジェクションを用いた合成データ生成によるデビアの再考
- Authors: Donggeun Ko, Sangwoo Jo, Dongjun Lee, Namjun Park, Jaekwang Kim,
- Abstract要約: DiffInject(ディフインジェクション)は,事前学習した拡散モデルを用いて,合成バイアス競合サンプルを増強する強力な手法である。
私たちのフレームワークでは、バイアスタイプやラベル付けに関する明確な知識は必要ありません。
- 参考スコア(独自算出の注目度): 9.801159950963306
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dataset bias is a significant challenge in machine learning, where specific attributes, such as texture or color of the images are unintentionally learned resulting in detrimental performance. To address this, previous efforts have focused on debiasing models either by developing novel debiasing algorithms or by generating synthetic data to mitigate the prevalent dataset biases. However, generative approaches to date have largely relied on using bias-specific samples from the dataset, which are typically too scarce. In this work, we propose, DiffInject, a straightforward yet powerful method to augment synthetic bias-conflict samples using a pretrained diffusion model. This approach significantly advances the use of diffusion models for debiasing purposes by manipulating the latent space. Our framework does not require any explicit knowledge of the bias types or labelling, making it a fully unsupervised setting for debiasing. Our methodology demonstrates substantial result in effectively reducing dataset bias.
- Abstract(参考訳): データセットバイアスは機械学習において重要な課題であり、画像のテクスチャや色などの特定の属性が意図せずに学習され、有害なパフォーマンスをもたらす。
これを解決するために、従来の取り組みでは、新しいデバイアスアルゴリズムを開発するか、あるいは一般的なデータセットバイアスを軽減するために合成データを生成することによってモデルをデバイアス化することに重点を置いてきた。
しかし、これまでの生成的アプローチは、データセットからのバイアス特異的なサンプルの使用に大きく依存しており、通常は不足している。
そこで本研究では, 事前学習拡散モデルを用いて, 合成バイアス競合サンプルを増大させる, 単純かつ強力な手法であるDiffInjectを提案する。
このアプローチは、遅延空間を操作することにより、デバイアス目的の拡散モデルの使用を大幅に促進する。
私たちのフレームワークでは、バイアスタイプやラベル付けに関する明確な知識は必要ありません。
提案手法は,データセットのバイアスを効果的に低減できることを示す。
関連論文リスト
- Looking at Model Debiasing through the Lens of Anomaly Detection [11.113718994341733]
ディープニューラルネットワークはデータのバイアスに敏感である。
本稿では,異常検出に基づく新しいバイアス同定手法を提案する。
合成および実際のベンチマークデータセット上で、最先端のパフォーマンスに到達する。
論文 参考訳(メタデータ) (2024-07-24T17:30:21Z) - Training Unbiased Diffusion Models From Biased Dataset [18.09610829650175]
本稿では,拡散モデルのバイアスを軽減するために,時間依存性の重要度再重み付けを提案する。
時間依存密度比が従来の手法よりも精度が高いことを示す。
スコアマッチングに直接適用することは難解であるが、再重み付けとスコア補正の両方に時間依存密度比を用いることで、目的関数の抽出可能な形式に繋がることがわかった。
論文 参考訳(メタデータ) (2024-03-02T12:06:42Z) - Revisiting the Dataset Bias Problem from a Statistical Perspective [72.94990819287551]
統計的観点から「データセットバイアス」問題を考察する。
問題の主な原因は、クラス属性 u と非クラス属性 b の強い相関関係である。
本稿では,各試料nの目的をフラクタル1p(u_n|b_n)で重み付けするか,その試料をフラクタル1p(u_n|b_n)に比例してサンプリングすることにより,データセットバイアスを軽減することを提案する。
論文 参考訳(メタデータ) (2024-02-05T22:58:06Z) - Data Attribution for Diffusion Models: Timestep-induced Bias in
Influence Estimation [58.20016784231991]
拡散モデルは、以前の文脈における瞬間的な入出力関係ではなく、一連のタイムステップで操作する。
本稿では、この時間的ダイナミクスを取り入れた拡散トラクInについて、サンプルの損失勾配ノルムが時間ステップに大きく依存していることを確認する。
そこで我々はDiffusion-ReTracを再正規化適応として導入し、興味のあるサンプルを対象にしたトレーニングサンプルの検索を可能にする。
論文 参考訳(メタデータ) (2024-01-17T07:58:18Z) - IBADR: an Iterative Bias-Aware Dataset Refinement Framework for
Debiasing NLU models [52.03761198830643]
IBADR(Iterative Bias-Aware dataset Refinement framework)を提案する。
まず、プール内のサンプルのバイアス度を定量化するために浅いモデルを訓練する。
次に、各サンプルにバイアス度を表すバイアス指標をペアにして、これらの拡張サンプルを使用してサンプルジェネレータを訓練する。
このようにして、このジェネレータは、バイアスインジケータとサンプルの対応関係を効果的に学習することができる。
論文 参考訳(メタデータ) (2023-11-01T04:50:38Z) - Echoes: Unsupervised Debiasing via Pseudo-bias Labeling in an Echo
Chamber [17.034228910493056]
本稿では,既存のバイアスモデルがトレーニングデータにおけるバイアス強調サンプルに過度に適合していることを明らかにする実験的検討を行った。
本研究では、バイアスモデルとターゲットモデルを異なる戦略で訓練するEchoesという、単純で効果的な手法を提案する。
提案手法は,既存の合成データセットと実世界のデータセットのベースラインと比較して,優れたデバイアス化結果が得られる。
論文 参考訳(メタデータ) (2023-05-06T13:13:18Z) - Feature-Level Debiased Natural Language Understanding [86.8751772146264]
既存の自然言語理解(NLU)モデルは、特定のデータセットで高いパフォーマンスを達成するために、データセットバイアスに依存することが多い。
本稿では, バイアスの潜在特性を緩和し, バイアスの動的性質を無視するために, DCT(Debiasing contrastive learning)を提案する。
DCTは、ディストリビューション内のパフォーマンスを維持しながら、アウトオブディストリビューションデータセットの最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2022-12-11T06:16:14Z) - Kernel-Whitening: Overcome Dataset Bias with Isotropic Sentence
Embedding [51.48582649050054]
符号化文の特徴間の相関関係を解消する表現正規化手法を提案する。
またNystromカーネル近似法であるKernel-Whiteningを提案する。
実験により,Kernel-Whiteningは分布内精度を維持しつつ,分布外データセット上でのBERTの性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2022-10-14T05:56:38Z) - CrossAug: A Contrastive Data Augmentation Method for Debiasing Fact
Verification Models [14.75693099720436]
そこで本研究では,事実検証モデルのデバイアス化のためのデータ拡張手法であるCrossAugを提案する。
既存のサンプルから新たなクレームやエビデンスを生成するために、2段階拡張パイプラインを使用します。
生成されたサンプルは、元のペアとクロスワイズにペアリングされ、対照的なサンプルを形成します。
論文 参考訳(メタデータ) (2021-09-30T13:19:19Z) - Learning Debiased Representation via Disentangled Feature Augmentation [19.348340314001756]
本稿では, 様々なバイアスを伴うサンプルを用いたトレーニングが, 脱バイアスに不可欠であることを示す実験的検討を行った。
本稿では, 多様なバイアス分散サンプルを合成するために, 特徴レベルのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2021-07-03T08:03:25Z) - Towards Robustifying NLI Models Against Lexical Dataset Biases [94.79704960296108]
本稿では、語彙的データセットバイアスに対するモデル強化のための、データレベルとモデルレベルのデバイアス法の両方について検討する。
まず、データ拡張と拡張によってデータセットをデバイアスするが、この方法でモデルバイアスを完全に除去することはできないことを示す。
第2のアプローチでは、バーオブワードのサブモデルを使用して、バイアスを悪用する可能性のある機能をキャプチャし、元のモデルがこれらのバイアス付き機能を学ぶのを防ぐ。
論文 参考訳(メタデータ) (2020-05-10T17:56:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。