論文の概要: RAIGen: Rare Attribute Identification in Text-to-Image Generative Models
- arxiv url: http://arxiv.org/abs/2602.06806v1
- Date: Fri, 06 Feb 2026 15:54:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.464382
- Title: RAIGen: Rare Attribute Identification in Text-to-Image Generative Models
- Title(参考訳): RAIGen:テキスト・画像生成モデルにおけるレア属性同定
- Authors: Silpa Vadakkeeveetil Sreelatha, Dan Wang, Serge Belongie, Muhammad Awais, Anjan Dutta,
- Abstract要約: 拡散モデルにおける非教師なしレア属性発見のための最初のフレームワークであるRAIGenを紹介する。
RAIGenは、安定拡散における固定フェアネスのカテゴリを超えた属性を発見し、SDXLのような大型モデルにスケールし、生成中のレア属性のターゲット増幅を可能にする。
- 参考スコア(独自算出の注目度): 12.120097479039373
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image diffusion models achieve impressive generation quality but inherit and amplify training-data biases, skewing coverage of semantic attributes. Prior work addresses this in two ways. Closed-set approaches mitigate biases in predefined fairness categories (e.g., gender, race), assuming socially salient minority attributes are known a priori. Open-set approaches frame the task as bias identification, highlighting majority attributes that dominate outputs. Both overlook a complementary task: uncovering rare or minority features underrepresented in the data distribution (social, cultural, or stylistic) yet still encoded in model representations. We introduce RAIGen, the first framework, to our knowledge, for un-supervised rare-attribute discovery in diffusion models. RAIGen leverages Matryoshka Sparse Autoencoders and a novel minority metric combining neuron activation frequency with semantic distinctiveness to identify interpretable neurons whose top-activating images reveal underrepresented attributes. Experiments show RAIGen discovers attributes beyond fixed fairness categories in Stable Diffusion, scales to larger models such as SDXL, supports systematic auditing across architectures, and enables targeted amplification of rare attributes during generation.
- Abstract(参考訳): テキストと画像の拡散モデルは、印象的な生成品質を実現するが、トレーニングデータバイアスを継承し、増幅し、セマンティック属性のカバレッジを絞る。
以前の作業では、これを2つの方法で解決している。
閉集合アプローチは、社会的に有能なマイノリティ属性が優先的であると仮定して、事前定義された公正カテゴリー(例えば、性別、人種)におけるバイアスを緩和する。
オープンセットアプローチは、タスクをバイアス識別として捉え、アウトプットを支配している多数派属性を強調します。
両者は相補的なタスクを見落としている: データ配信(社会的、文化的、または様式的)で表現されていない稀な、または少数な特徴を、モデル表現で符号化している。
拡散モデルにおける非教師なしレア属性発見のための第1のフレームワークであるRAIGenを紹介する。
RAIGenは、Matryoshka Sparse Autoencodersと、ニューロンの活性化頻度と意味的特異性を組み合わせた新しいマイノリティーメトリックを活用して、トップアクティベート画像が未表現の属性を示す解釈可能なニューロンを識別する。
実験の結果、RAIGenは安定拡散における固定フェアネスのカテゴリを超えて属性を発見し、SDXLのような大型モデルにスケールし、アーキテクチャ間の系統的な監査をサポートし、生成時に稀な属性を対象とする増幅を可能にする。
関連論文リスト
- What really matters for person re-identification? A Mixture-of-Experts Framework for Semantic Attribute Importance [3.1485041255193784]
MoSAIC-ReIDはMixture-of-Expertsフレームワークであり、歩行者属性の重要性を体系的に定量化する。
提案手法では, 一つの属性にリンクしたLoRAベースのエキスパートと, 制御属性解析が可能なオラクルルータを用いる。
論文 参考訳(メタデータ) (2025-12-09T15:14:28Z) - What Makes You Unique? Attribute Prompt Composition for Object Re-Identification [70.67907354506278]
Object Re-IDentificationは、重複しないカメラビューで個人を認識することを目的としている。
単一ドメインモデルはドメイン固有の機能に過度に適合する傾向がありますが、クロスドメインモデルは多種多様な正規化戦略に依存します。
本稿では,テキストのセマンティクスを利用して識別と一般化を協調的に強化する属性プロンプト合成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-23T07:03:08Z) - Fair Generation without Unfair Distortions: Debiasing Text-to-Image Generation with Entanglement-Free Attention [42.277875137852234]
Entanglement-Free Attention (EFA) は、非ターゲット属性をバイアス緩和時に保存しながら、ターゲット属性を正確に組み込む手法である。
推論時に、EFAは、ターゲット属性を同じ確率でランダムにサンプリングし、選択された層内の交差アテンションを調整して、サンプル属性を組み込む。
大規模な実験により、EFAは非ターゲット属性を保ちながらバイアスを緩和する既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-06-16T09:40:32Z) - DDAE++: Enhancing Diffusion Models Towards Unified Generative and Discriminative Learning [53.27049077100897]
生成前訓練は差別的な表現をもたらし、統一された視覚生成と理解への道を開くことが示されている。
この研究は自己条件付けを導入し、ネットワークに固有のリッチなセマンティクスを内部的に活用し、独自のデコード層をガイドする。
提案手法は、FIDの生成と認識の精度を1%の計算オーバーヘッドで向上させ、多様な拡散アーキテクチャで一般化する。
論文 参考訳(メタデータ) (2025-05-16T08:47:16Z) - Leveraging vision-language models for fair facial attribute classification [19.93324644519412]
汎用視覚言語モデル(英: General-purpose Vision-Language Model, VLM)は、共通感性属性のための豊富な知識源である。
我々は,VLM予測値と人間定義属性分布の対応関係を解析した。
複数のベンチマークの顔属性分類データセットの実験は、既存の教師なしベースラインよりもモデルの公平性の向上を示している。
論文 参考訳(メタデータ) (2024-03-15T18:37:15Z) - Distributionally Generative Augmentation for Fair Facial Attribute Classification [69.97710556164698]
Facial Attribute Classification (FAC) は広く応用されている。
従来の手法で訓練されたFACモデルは、様々なデータサブポピュレーションにまたがる精度の不整合を示すことによって不公平である可能性がある。
本研究は,付加アノテーションなしでバイアスデータ上で公正なFACモデルをトレーニングするための,新しい世代ベースの2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-11T10:50:53Z) - Exploring Fine-Grained Representation and Recomposition for Cloth-Changing Person Re-Identification [78.52704557647438]
補助的なアノテーションやデータなしに両方の制約に対処するために,新しいFIne-fine Representation and Recomposition (FIRe$2$) フレームワークを提案する。
FIRe$2$は、広く使われている5つのRe-IDベンチマークで最先端のパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2023-08-21T12:59:48Z) - Hierarchical Visual Primitive Experts for Compositional Zero-Shot
Learning [52.506434446439776]
合成ゼロショット学習(CZSL)は、既知のプリミティブ(属性とオブジェクト)の事前知識で構成を認識することを目的としている。
このような問題に対処するために,コンポジショントランスフォーマー(CoT)と呼ばれるシンプルでスケーラブルなフレームワークを提案する。
提案手法は,MIT-States,C-GQA,VAW-CZSLなど,いくつかのベンチマークでSoTA性能を実現する。
論文 参考訳(メタデータ) (2023-08-08T03:24:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。