論文の概要: Role Bias in Text-to-Image Diffusion Models: Diagnosing and Mitigating Compositional Failures through Intermediate Decomposition
- arxiv url: http://arxiv.org/abs/2503.10037v2
- Date: Sat, 24 May 2025 02:14:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 14:32:53.64407
- Title: Role Bias in Text-to-Image Diffusion Models: Diagnosing and Mitigating Compositional Failures through Intermediate Decomposition
- Title(参考訳): テキスト・画像拡散モデルにおける役割バイアス:中間分解による構成障害の診断と緩和
- Authors: Sina Malakouti, Adriana Kovashka,
- Abstract要約: 本稿では,アクションベース関係における構成一般化を評価するベンチマークであるRoleBenchを紹介する。
現状のT2Iモデルと構成的アプローチが、頻繁に反転する関係に対して常にデフォルトであることを示します。
本研究は, 構成障害における分布非対称性の役割を強調し, 一般化を改善するための単純かつ効果的な経路を提供するものである。
- 参考スコア(独自算出の注目度): 28.49695567630899
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image (T2I) diffusion models exhibit impressive photorealistic image generation capabilities, yet they struggle in compositional image generation. In this work, we introduce RoleBench, a benchmark focused on evaluating compositional generalization in action-based relations (e.g., "mouse chasing cat"). We show that state-of-the-art T2I models and compositional approaches consistently default to frequent reversed relations (i.e., cat chasing mouse), a phenomenon we call RoleCollapse. Related works attribute this to the model's architectural limitation or being underrepresented in the data. Our key insight reveals that while models fail on rare compositions when their inversions are common, they can successfully generate similar intermediate compositions (e.g., "mouse chasing boy"), suggesting that this limitation is due to the presence of frequent counterparts rather than the absence of rare compositions. Motivated by this, we hypothesize that directional decomposition can gradually mitigate role collapse. We test this via ReBind, a lightweight framework that teaches role bindings using carefully selected active/passive intermediaries. Experiments suggest that intermediate compositions through intermediate fine-tuning can significantly mitigate role bias, with humans preferring more than 78% compared to state-of-the-art methods. Our findings highlight the role of distributional asymmetries in compositional failures and offer a simple, effective path to improving generalization.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)拡散モデルでは、印象的なフォトリアリスティックな画像生成能力を示すが、合成画像生成に苦慮している。
本研究では,行動に基づく関係(例えば「猫を追いかけるマウス」)における構成的一般化を評価するベンチマークであるRoleBenchを紹介する。
現状のT2Iモデルと構成的アプローチは,RoleCollapseと呼ばれる現象である頻繁な逆関係(猫追尾マウス)に対して,常にデフォルトとなることを示す。
関連する作業は、これをモデルのアーキテクチャ上の制限、あるいはデータに過小評価されていることによる。
我々の重要な洞察は、モデルが稀な合成に失敗する一方で、類似した中間合成(例えば「マウス追跡少年」)をうまく生成できることを示し、この制限は稀な合成が欠如することよりも、頻繁な合成物の存在によるものであることを示唆している。
このことから,方向分解が役割崩壊を徐々に緩和する可能性が示唆された。
ReBindは、慎重に選択されたアクティブ/パッシブな仲介者を使ってロールバインディングを教える軽量フレームワークです。
実験により、中間的な微調整による中間的な組成は役割バイアスを著しく軽減し、ヒトは最先端の方法に比べて78%以上を好んでいることが示唆された。
本研究は, 構成障害における分布非対称性の役割を強調し, 一般化を改善するための単純かつ効果的な経路を提供するものである。
関連論文リスト
- A Meaningful Perturbation Metric for Evaluating Explainability Methods [55.09730499143998]
本稿では,画像生成モデルを用いて標的摂動を行う新しい手法を提案する。
具体的には,画像の忠実さを保ちながら,入力画像の高関連画素のみを塗布し,モデルの予測を変更することに焦点を当てる。
これは、しばしばアウト・オブ・ディストリビューションの修正を生み出し、信頼できない結果をもたらす既存のアプローチとは対照的である。
論文 参考訳(メタデータ) (2025-04-09T11:46:41Z) - BiasConnect: Investigating Bias Interactions in Text-to-Image Models [73.76853483463836]
テキスト・ツー・イメージ・モデルにおけるバイアス相互作用の分析と定量化を目的とした新しいツールであるBiasConnectを紹介する。
我々の手法は、与えられたバイアスが修正されたとき、他のバイアス次元が理想的な分布に向かって、あるいは離れてどのように変化するかを示す経験的推定を提供する。
本稿では,最適なバイアス緩和軸の選択,学習する依存関係の異なるTTIモデルの比較,およびTTIモデルにおける交叉社会的バイアスの増幅を理解するためのBiasConnectの有用性を示す。
論文 参考訳(メタデータ) (2025-03-12T19:01:41Z) - An Attention-based Framework for Fair Contrastive Learning [2.1605931466490795]
そこで本稿では,バイアスを考慮したインタラクションをモデル化するための注意機構を用いた,公正なコントラスト学習のための新しい手法を提案する。
我々の注意機構は、モデルに相反するバイアスを発生させるサンプルを避け、意味論的に意味のある表現を学習するのに役立つバイアスを誘発するサンプルに焦点をあてる。
論文 参考訳(メタデータ) (2024-11-22T07:11:35Z) - Towards Deconfounded Image-Text Matching with Causal Inference [36.739004282369656]
本稿では、画像テキストマッチングタスクのための革新的なDecon founded Causal Inference Network(DCIN)を提案する。
DCINは、モダル内およびモダル間共同創設者を分解し、それらを視覚的およびテキスト的特徴のエンコーディングステージに組み込む。
データセットバイアスによって引き起こされる刺激的な相関ではなく、因果関係を学ぶことができる。
論文 参考訳(メタデータ) (2024-08-22T11:04:28Z) - Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。
逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。
我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文 参考訳(メタデータ) (2024-06-19T08:07:14Z) - Detecting Spurious Correlations via Robust Visual Concepts in Real and
AI-Generated Image Classification [12.992095539058022]
本稿では,潜在的スパイラル相関を効率的に検出する汎用手法を提案する。
提案手法は,ピクセルレベルのアノテーションを不要にしつつ,直感的な説明を提供する。
また,本手法は,生成モデル由来の下流アプリケーションに伝播する急激な相関を検出するのにも適している。
論文 参考訳(メタデータ) (2023-11-03T01:12:35Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - Towards Robust and Adaptive Motion Forecasting: A Causal Representation
Perspective [72.55093886515824]
本稿では,3つの潜伏変数群からなる動的過程として,運動予測の因果的形式化を導入する。
我々は、因果グラフを近似するために、不変なメカニズムやスタイルの共創者の表現を分解するモジュラーアーキテクチャを考案する。
合成および実データを用いた実験結果から,提案した3つの成分は,学習した動き表現の頑健性と再利用性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2021-11-29T18:59:09Z) - Addressing Class Imbalance in Scene Graph Parsing by Learning to
Contrast and Score [65.18522219013786]
シーングラフ解析は、画像シーン内のオブジェクトを検出し、それらの関係を認識することを目的としている。
最近の手法は、いくつかの人気のあるベンチマークで高い平均スコアを達成しているが、稀な関係を検出するには失敗している。
本稿では,クラス不均衡問題を解決するために,分類とランキングの新たな統合フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-28T13:57:59Z) - Evaluating and Mitigating Bias in Image Classifiers: A Causal
Perspective Using Counterfactuals [27.539001365348906]
本稿では、逆学習推論(ALI)の改良版に構造因果モデル(SCM)を組み込むことにより、逆ファクトアルを生成する方法を提案する。
本稿では,事前学習された機械学習分類器の説明方法を示し,そのバイアスを評価し,そのバイアスを正則化器を用いて緩和する方法について述べる。
論文 参考訳(メタデータ) (2020-09-17T13:19:31Z) - Fundamental Tradeoffs between Invariance and Sensitivity to Adversarial
Perturbations [65.05561023880351]
敵の例は誤分類を引き起こすために作られた悪意のある入力である。
本稿では, 相補的障害モード, 不変性に基づく逆数例について検討する。
感度に基づく攻撃に対する防御は、不変性に基づく攻撃に対するモデルの精度を積極的に損なうことを示す。
論文 参考訳(メタデータ) (2020-02-11T18:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。