Fugu-MT 論文翻訳(概要): Investigating and Improving Counter-Stereotypical Action Relation in Text-to-Image Diffusion Models

論文の概要: Investigating and Improving Counter-Stereotypical Action Relation in Text-to-Image Diffusion Models

arxiv url: http://arxiv.org/abs/2503.10037v1
Date: Thu, 13 Mar 2025 04:38:02 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-14 21:36:22.522224
Title: Investigating and Improving Counter-Stereotypical Action Relation in Text-to-Image Diffusion Models
Title（参考訳）: テキスト・画像拡散モデルにおける反ステレオタイプ的行動関係の調査と改善
Authors: Sina Malakouti, Adriana Kovashka,
Abstract要約: テキストと画像の拡散モデルは、反ステレオタイプなアクション関係を生成するのに一貫して失敗する。この制限は、本質的なモデル制約よりも分布バイアスに由来する。
参考スコア（独自算出の注目度）: 28.49695567630899
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text-to-image diffusion models consistently fail at generating counter-stereotypical action relationships (e.g., "mouse chasing cat"), defaulting to frequent stereotypes even when explicitly prompted otherwise. Through systematic investigation, we discover this limitation stems from distributional biases rather than inherent model constraints. Our key insight reveals that while models fail on rare compositions when their inversions are common, they can successfully generate similar intermediate compositions (e.g., "mouse chasing boy"). To test this hypothesis, we develop a Role-Bridging Decomposition framework that leverages these intermediates to gradually teach rare relationships without architectural modifications. We introduce ActionBench, a comprehensive benchmark specifically designed to evaluate action-based relationship generation across stereotypical and counter-stereotypical configurations. Our experiments validate that intermediate compositions indeed facilitate counter-stereotypical generation, with both automatic metrics and human evaluations showing significant improvements over existing approaches. This work not only identifies fundamental biases in current text-to-image systems but demonstrates a promising direction for addressing them through compositional reasoning.
Abstract（参考訳）: テキストと画像の拡散モデルは、常に反ステレオタイプ的なアクション関係(例:「猫を追いかけるマウス」)を生成するのに失敗する。系統的な研究により、この制限は固有のモデル制約よりも分布バイアスに由来することが判明した。我々の重要な洞察は、モデルがインバージョンが一般的であるときに稀な合成に失敗する一方で、同様の中間合成(例えば「マウス追跡少年」)をうまく生成できることを示している。この仮説を検証するために、これらの中間体を利用して、アーキテクチャの変更なしに徐々にレアな関係を学ばせるロールブリッジ分解フレームワークを開発した。我々は、ステレオタイプおよび反ステレオタイプ構成におけるアクションベースの関係生成を評価するために特別に設計された総合ベンチマークであるActionBenchを紹介する。本実験は, 中間合成が反ステレオタイプ生成を促進することを実証するものであり, 自動測定と人的評価の両方が既存手法よりも大幅に改善されていることを示す。この研究は、現在のテキスト・画像システムにおける基本的なバイアスを識別するだけでなく、構成的推論を通じてそれらに対処するための有望な方向を示す。

関連論文リスト

Mind the Gap: Aligning Vision Foundation Models to Image Feature Matching [31.42132290162457]
IMD (Image Feature Matching with a Pre-trained Diffusion model) と呼ばれる新しいフレームワークを2つのパーツで導入する。グローバルセマンティクスを重視したコントラッシブラーニングに基づく基礎モデルを用いた支配的なソリューションとは異なり、生成的拡散モデルを統合する。提案したIMMは,評価されたベンチマークにおいて新たな最先端性を確立し,IMIMの優れた12%の改善は,この手法の誤認識を効果的に軽減することを示す。
論文参考訳（メタデータ） (2025-07-14T14:28:15Z)
A Meaningful Perturbation Metric for Evaluating Explainability Methods [55.09730499143998]
本稿では,画像生成モデルを用いて標的摂動を行う新しい手法を提案する。具体的には,画像の忠実さを保ちながら,入力画像の高関連画素のみを塗布し,モデルの予測を変更することに焦点を当てる。これは、しばしばアウト・オブ・ディストリビューションの修正を生み出し、信頼できない結果をもたらす既存のアプローチとは対照的である。
論文参考訳（メタデータ） (2025-04-09T11:46:41Z)
BiasConnect: Investigating Bias Interactions in Text-to-Image Models [73.76853483463836]
テキスト・ツー・イメージ・モデルにおけるバイアス相互作用の分析と定量化を目的とした新しいツールであるBiasConnectを紹介する。我々の手法は、与えられたバイアスが修正されたとき、他のバイアス次元が理想的な分布に向かって、あるいは離れてどのように変化するかを示す経験的推定を提供する。本稿では,最適なバイアス緩和軸の選択,学習する依存関係の異なるTTIモデルの比較,およびTTIモデルにおける交叉社会的バイアスの増幅を理解するためのBiasConnectの有用性を示す。
論文参考訳（メタデータ） (2025-03-12T19:01:41Z)
Relation-Aware Meta-Learning for Zero-shot Sketch-Based Image Retrieval [89.15541654536544]
スケッチベースの画像検索(SBIR)は、同じクラス内で自然写真を取得するためにフリーハンドスケッチに依存している。この制限に対処するため、タスクはゼロショットSketch-based Image Retrieval (ZS-SBIR)へと進化した。本稿では,ZS-SBIRのための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-11-28T09:35:27Z)
An Attention-based Framework for Fair Contrastive Learning [2.1605931466490795]
そこで本稿では,バイアスを考慮したインタラクションをモデル化するための注意機構を用いた,公正なコントラスト学習のための新しい手法を提案する。我々の注意機構は、モデルに相反するバイアスを発生させるサンプルを避け、意味論的に意味のある表現を学習するのに役立つバイアスを誘発するサンプルに焦点をあてる。
論文参考訳（メタデータ） (2024-11-22T07:11:35Z)
DreamMover: Leveraging the Prior of Diffusion Models for Image Interpolation with Large Motion [35.60459492849359]
本研究では,大きな動きを持つ画像対から中間画像を生成する問題について検討する。大きな動きのため、中間的な意味情報は入力画像に欠落する可能性がある。 3つの主要コンポーネントを持つ新しいイメージフレームワークであるDreamMoverを提案する。
論文参考訳（メタデータ） (2024-09-15T04:09:12Z)
Towards Deconfounded Image-Text Matching with Causal Inference [36.739004282369656]
本稿では、画像テキストマッチングタスクのための革新的なDecon founded Causal Inference Network(DCIN)を提案する。 DCINは、モダル内およびモダル間共同創設者を分解し、それらを視覚的およびテキスト的特徴のエンコーディングステージに組み込む。データセットバイアスによって引き起こされる刺激的な相関ではなく、因果関係を学ぶことができる。
論文参考訳（メタデータ） (2024-08-22T11:04:28Z)
Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文参考訳（メタデータ） (2024-06-19T08:07:14Z)
Decompose-and-Compose: A Compositional Approach to Mitigating Spurious Correlation [2.273629240935727]
画像の要素を組み合わせることで相関シフトを改善するために,分解分解(DaC)を提案する。経験的リスク最小化(Empirical Risk Minimization, ERM)で訓練されたモデルでは, 通常, 因果成分, あるいはラベルとの急激な相関性が高い成分のいずれかに高い関与が認められた。トレーニング中に,グループラベルやスプリアスの特徴に関する情報を必要とせず,画像に介入してグループバランスを行う手法を提案する。
論文参考訳（メタデータ） (2024-02-29T07:24:24Z)
Counterfactual Image Editing [54.21104691749547]
対物画像編集は、生成AIにおいて重要なタスクであり、ある機能が異なる場合、画像がどのように見えるかを尋ねる。本稿では,形式言語を用いた対物画像編集タスクを形式化し,潜在生成因子と画像の因果関係をモデル化する。ニューラル因果モデルを利用して、対物画像を生成する効率的なアルゴリズムを開発した。
論文参考訳（メタデータ） (2024-02-07T20:55:39Z)
Separate-and-Enhance: Compositional Finetuning for Text2Image Diffusion Models [58.46926334842161]
この研究は、注意力の低いアクティベーションスコアとマスクオーバーラップに関連する問題を指摘し、このような不一致の根本的な理由を照らしている。本稿では,物体マスクの重なりを低減し,注目度を最大化する2つの新しい目的,分離損失とエンハンス損失を提案する。提案手法は従来のテスト時間適応手法と異なり,拡張性と一般化性を高める重要なパラメータの微調整に重点を置いている。
論文参考訳（メタデータ） (2023-12-10T22:07:42Z)
Detecting Spurious Correlations via Robust Visual Concepts in Real and AI-Generated Image Classification [12.992095539058022]
本稿では,潜在的スパイラル相関を効率的に検出する汎用手法を提案する。提案手法は,ピクセルレベルのアノテーションを不要にしつつ,直感的な説明を提供する。また,本手法は,生成モデル由来の下流アプリケーションに伝播する急激な相関を検出するのにも適している。
論文参考訳（メタデータ） (2023-11-03T01:12:35Z)
Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文参考訳（メタデータ） (2023-11-02T16:45:25Z)
Debiasing Counterfactuals In the Presence of Spurious Correlations [0.98342301244574]
我々は、(i)人気のデバイアス分類器と(ii)対実画像生成の両方を統合した、最初のエンドツーエンドトレーニングフレームワークを紹介する。以上の結果から, 人口全体にわたる一般化可能なマーカーを学習し, (ii) 急激な相関を無視し, 根底にある疾患の病理に焦点をあてる脱バイアス法が実証された。
論文参考訳（メタデータ） (2023-08-21T19:01:45Z)
General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。 GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文参考訳（メタデータ） (2021-12-20T14:47:32Z)
Towards Robust and Adaptive Motion Forecasting: A Causal Representation Perspective [72.55093886515824]
本稿では,3つの潜伏変数群からなる動的過程として,運動予測の因果的形式化を導入する。我々は、因果グラフを近似するために、不変なメカニズムやスタイルの共創者の表現を分解するモジュラーアーキテクチャを考案する。合成および実データを用いた実験結果から,提案した3つの成分は,学習した動き表現の頑健性と再利用性を大幅に向上することが示された。
論文参考訳（メタデータ） (2021-11-29T18:59:09Z)
Low-Light Image Enhancement with Normalizing Flow [92.52290821418778]
本稿では,この一対多の関係を正規化フローモデルを用いてモデル化する。低照度画像/特徴を条件として取り、通常露光される画像の分布をガウス分布にマッピングすることを学ぶ可逆ネットワーク。既存のベンチマークデータセットによる実験結果から,提案手法はより定量的,質的な結果を得ることができ,照度が良く,ノイズやアーティファクトが小さく,色も豊かになることがわかった。
論文参考訳（メタデータ） (2021-09-13T12:45:08Z)
Counterfactual Generative Networks [59.080843365828756]
画像生成過程を直接監督せずに訓練する独立した因果機構に分解することを提案する。適切な誘導バイアスを活用することによって、これらのメカニズムは物体の形状、物体の質感、背景を解き放つ。その結果, 偽画像は, 元の分類タスクにおける性能の低下を伴い, 分散性が向上することが示された。
論文参考訳（メタデータ） (2021-01-15T10:23:12Z)
Addressing Class Imbalance in Scene Graph Parsing by Learning to Contrast and Score [65.18522219013786]
シーングラフ解析は、画像シーン内のオブジェクトを検出し、それらの関係を認識することを目的としている。最近の手法は、いくつかの人気のあるベンチマークで高い平均スコアを達成しているが、稀な関係を検出するには失敗している。本稿では,クラス不均衡問題を解決するために,分類とランキングの新たな統合フレームワークを提案する。
論文参考訳（メタデータ） (2020-09-28T13:57:59Z)
Evaluating and Mitigating Bias in Image Classifiers: A Causal Perspective Using Counterfactuals [27.539001365348906]
本稿では、逆学習推論(ALI)の改良版に構造因果モデル(SCM)を組み込むことにより、逆ファクトアルを生成する方法を提案する。本稿では,事前学習された機械学習分類器の説明方法を示し,そのバイアスを評価し,そのバイアスを正則化器を用いて緩和する方法について述べる。
論文参考訳（メタデータ） (2020-09-17T13:19:31Z)
Fundamental Tradeoffs between Invariance and Sensitivity to Adversarial Perturbations [65.05561023880351]
敵の例は誤分類を引き起こすために作られた悪意のある入力である。本稿では, 相補的障害モード, 不変性に基づく逆数例について検討する。感度に基づく攻撃に対する防御は、不変性に基づく攻撃に対するモデルの精度を積極的に損なうことを示す。
論文参考訳（メタデータ） (2020-02-11T18:50:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。