論文の概要: Chameleon: Foundation Models for Fairness-aware Multi-modal Data
Augmentation to Enhance Coverage of Minorities
- arxiv url: http://arxiv.org/abs/2402.01071v1
- Date: Fri, 2 Feb 2024 00:16:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 17:30:15.722507
- Title: Chameleon: Foundation Models for Fairness-aware Multi-modal Data
Augmentation to Enhance Coverage of Minorities
- Title(参考訳): Chameleon: フェアネスを意識したマルチモーダルデータ拡張のための基盤モデル
- Authors: Mahdi Erfanian and H. V. Jagadish and Abolfazl Asudeh
- Abstract要約: 訓練データにおけるマイノリティの下位表現は、よく認識されている関心事である。
提案するChameleonは、最小限の設定を加えてデータセットを拡張して、表現されていないグループの範囲を拡大するシステムである。
提案アルゴリズムの有効性を確認するとともに,提案手法の有効性を実証した。
- 参考スコア(独自算出の注目度): 25.215178019059874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The potential harms of the under-representation of minorities in training
data, particularly in multi-modal settings, is a well-recognized concern. While
there has been extensive effort in detecting such under-representation,
resolution has remained a challenge. With recent advancements in generative AI,
large language models and foundation models have emerged as versatile tools
across various domains. In this paper, we propose Chameleon, a system that
efficiently utilizes these tools to augment a data set with a minimal addition
of synthetically generated tuples, in order to enhance the coverage of the
under-represented groups. Our system follows a rejection sampling approach to
ensure the generated tuples have a high quality and follow the underlying
distribution. In order to minimize the rejection chance of the generated
tuples, we propose multiple strategies for providing a guide for the foundation
model. Our experiment results, in addition to confirming the efficiency of our
proposed algorithms, illustrate the effectiveness of our approach, as the
unfairness of the model in a downstream task significantly dropped after data
repair using Chameleon.
- Abstract(参考訳): 訓練データ、特にマルチモーダル設定におけるマイノリティの不足による潜在的な害は、よく認識されている懸念である。
このような過度な表現の検出には多大な努力が払われてきたが、解決は依然として課題である。
ジェネレーティブAIの最近の進歩により、様々な領域にまたがる汎用ツールとして、大きな言語モデルと基礎モデルが出現した。
本稿では,これらのツールを用いて,合成生成タプルの最小付加によるデータセットの拡張を行い,非表現群のカバレッジを向上させるシステムchameleonを提案する。
提案システムは,生成したタプルが高品質で,基礎となる分布に従うことを保証するために,拒絶サンプリング手法に従う。
生成したタプルの拒絶確率を最小限に抑えるため,基礎モデルのガイドを提供するための複数の戦略を提案する。
実験の結果,提案アルゴリズムの有効性の確認に加えて,ダウンストリームタスクにおけるモデルの不公平性がchameleonを用いたデータ修復の後に著しく低下するため,提案手法の有効性を示す。
関連論文リスト
- Enhancing Unsupervised Sentence Embeddings via Knowledge-Driven Data Augmentation and Gaussian-Decayed Contrastive Learning [37.54523122932728]
大規模言語モデル(LLM)を用いたパイプラインベースのデータ拡張手法を提案する。
データ多様性の低い問題に対処するため、私たちのパイプラインは知識グラフ(KG)を使用してエンティティや量を取り出す。
高いデータノイズに対処するため、GCSEモデルは偽硬陰性サンプルの影響を制限するためにガウス分解関数を使用する。
論文 参考訳(メタデータ) (2024-09-19T16:29:58Z) - A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。
本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。
背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-01T07:40:00Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Negative Data Augmentation [127.28042046152954]
負のデータ拡張サンプルは、データ分散のサポートに関する情報を提供することを示す。
我々は、NDAを識別器の合成データの追加源として利用する新しいGAN訓練目標を提案する。
実験により,本手法で訓練したモデルでは,異常検出能力の向上とともに条件付き・条件付き画像生成の改善を実現している。
論文 参考訳(メタデータ) (2021-02-09T20:28:35Z) - Learning Diverse Representations for Fast Adaptation to Distribution
Shift [78.83747601814669]
本稿では,複数のモデルを学習する手法を提案する。
分散シフトへの迅速な適応を促進するフレームワークの能力を実証する。
論文 参考訳(メタデータ) (2020-06-12T12:23:50Z) - Inclusive GAN: Improving Data and Minority Coverage in Generative Models [101.67587566218928]
データカバレッジの1つとしてマイノリティー・インクルージョンの問題を定式化する。
次に、再構成世代と敵対的トレーニングを調和させることにより、データカバレッジを改善することを提案する。
我々は、モデルが確実に含めるべきマイノリティサブグループを明示的に制御できる拡張を開発する。
論文 参考訳(メタデータ) (2020-04-07T13:31:33Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。