論文の概要: Investigating and Improving Counter-Stereotypical Action Relation in Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2503.10037v1
- Date: Thu, 13 Mar 2025 04:38:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:53:08.159575
- Title: Investigating and Improving Counter-Stereotypical Action Relation in Text-to-Image Diffusion Models
- Title(参考訳): テキスト・画像拡散モデルにおける反ステレオタイプ的行動関係の調査と改善
- Authors: Sina Malakouti, Adriana Kovashka,
- Abstract要約: テキストと画像の拡散モデルは、反ステレオタイプなアクション関係を生成するのに一貫して失敗する。
この制限は、本質的なモデル制約よりも分布バイアスに由来する。
- 参考スコア(独自算出の注目度): 28.49695567630899
- License:
- Abstract: Text-to-image diffusion models consistently fail at generating counter-stereotypical action relationships (e.g., "mouse chasing cat"), defaulting to frequent stereotypes even when explicitly prompted otherwise. Through systematic investigation, we discover this limitation stems from distributional biases rather than inherent model constraints. Our key insight reveals that while models fail on rare compositions when their inversions are common, they can successfully generate similar intermediate compositions (e.g., "mouse chasing boy"). To test this hypothesis, we develop a Role-Bridging Decomposition framework that leverages these intermediates to gradually teach rare relationships without architectural modifications. We introduce ActionBench, a comprehensive benchmark specifically designed to evaluate action-based relationship generation across stereotypical and counter-stereotypical configurations. Our experiments validate that intermediate compositions indeed facilitate counter-stereotypical generation, with both automatic metrics and human evaluations showing significant improvements over existing approaches. This work not only identifies fundamental biases in current text-to-image systems but demonstrates a promising direction for addressing them through compositional reasoning.
- Abstract(参考訳): テキストと画像の拡散モデルは、常に反ステレオタイプ的なアクション関係(例:「猫を追いかけるマウス」)を生成するのに失敗する。
系統的な研究により、この制限は固有のモデル制約よりも分布バイアスに由来することが判明した。
我々の重要な洞察は、モデルがインバージョンが一般的であるときに稀な合成に失敗する一方で、同様の中間合成(例えば「マウス追跡少年」)をうまく生成できることを示している。
この仮説を検証するために、これらの中間体を利用して、アーキテクチャの変更なしに徐々にレアな関係を学ばせるロールブリッジ分解フレームワークを開発した。
我々は、ステレオタイプおよび反ステレオタイプ構成におけるアクションベースの関係生成を評価するために特別に設計された総合ベンチマークであるActionBenchを紹介する。
本実験は, 中間合成が反ステレオタイプ生成を促進することを実証するものであり, 自動測定と人的評価の両方が既存手法よりも大幅に改善されていることを示す。
この研究は、現在のテキスト・画像システムにおける基本的なバイアスを識別するだけでなく、構成的推論を通じてそれらに対処するための有望な方向を示す。
関連論文リスト
- An Attention-based Framework for Fair Contrastive Learning [2.1605931466490795]
そこで本稿では,バイアスを考慮したインタラクションをモデル化するための注意機構を用いた,公正なコントラスト学習のための新しい手法を提案する。
我々の注意機構は、モデルに相反するバイアスを発生させるサンプルを避け、意味論的に意味のある表現を学習するのに役立つバイアスを誘発するサンプルに焦点をあてる。
論文 参考訳(メタデータ) (2024-11-22T07:11:35Z) - Towards Deconfounded Image-Text Matching with Causal Inference [36.739004282369656]
本稿では、画像テキストマッチングタスクのための革新的なDecon founded Causal Inference Network(DCIN)を提案する。
DCINは、モダル内およびモダル間共同創設者を分解し、それらを視覚的およびテキスト的特徴のエンコーディングステージに組み込む。
データセットバイアスによって引き起こされる刺激的な相関ではなく、因果関係を学ぶことができる。
論文 参考訳(メタデータ) (2024-08-22T11:04:28Z) - Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。
逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。
我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文 参考訳(メタデータ) (2024-06-19T08:07:14Z) - Detecting Spurious Correlations via Robust Visual Concepts in Real and
AI-Generated Image Classification [12.992095539058022]
本稿では,潜在的スパイラル相関を効率的に検出する汎用手法を提案する。
提案手法は,ピクセルレベルのアノテーションを不要にしつつ,直感的な説明を提供する。
また,本手法は,生成モデル由来の下流アプリケーションに伝播する急激な相関を検出するのにも適している。
論文 参考訳(メタデータ) (2023-11-03T01:12:35Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - Towards Robust and Adaptive Motion Forecasting: A Causal Representation
Perspective [72.55093886515824]
本稿では,3つの潜伏変数群からなる動的過程として,運動予測の因果的形式化を導入する。
我々は、因果グラフを近似するために、不変なメカニズムやスタイルの共創者の表現を分解するモジュラーアーキテクチャを考案する。
合成および実データを用いた実験結果から,提案した3つの成分は,学習した動き表現の頑健性と再利用性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2021-11-29T18:59:09Z) - Addressing Class Imbalance in Scene Graph Parsing by Learning to
Contrast and Score [65.18522219013786]
シーングラフ解析は、画像シーン内のオブジェクトを検出し、それらの関係を認識することを目的としている。
最近の手法は、いくつかの人気のあるベンチマークで高い平均スコアを達成しているが、稀な関係を検出するには失敗している。
本稿では,クラス不均衡問題を解決するために,分類とランキングの新たな統合フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-28T13:57:59Z) - Evaluating and Mitigating Bias in Image Classifiers: A Causal
Perspective Using Counterfactuals [27.539001365348906]
本稿では、逆学習推論(ALI)の改良版に構造因果モデル(SCM)を組み込むことにより、逆ファクトアルを生成する方法を提案する。
本稿では,事前学習された機械学習分類器の説明方法を示し,そのバイアスを評価し,そのバイアスを正則化器を用いて緩和する方法について述べる。
論文 参考訳(メタデータ) (2020-09-17T13:19:31Z) - Fundamental Tradeoffs between Invariance and Sensitivity to Adversarial
Perturbations [65.05561023880351]
敵の例は誤分類を引き起こすために作られた悪意のある入力である。
本稿では, 相補的障害モード, 不変性に基づく逆数例について検討する。
感度に基づく攻撃に対する防御は、不変性に基づく攻撃に対するモデルの精度を積極的に損なうことを示す。
論文 参考訳(メタデータ) (2020-02-11T18:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。