論文の概要: Aligned but Stereotypical? The Hidden Influence of System Prompts on Social Bias in LVLM-Based Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2512.04981v1
- Date: Thu, 04 Dec 2025 16:52:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.279933
- Title: Aligned but Stereotypical? The Hidden Influence of System Prompts on Social Bias in LVLM-Based Text-to-Image Models
- Title(参考訳): LVLMを用いたテキスト・画像モデルにおけるシステムプロンプトの社会的バイアスへの影響
- Authors: NaHyeon Park, Namin An, Kunhee Kim, Soyeon Yoon, Jiahao Huo, Hyunjung Shim,
- Abstract要約: 大規模視覚言語モデル (LVLM) ベースのテキスト・ツー・イメージシステム (T2I) は画像生成において支配的なパラダイムとなっている。
LVLMをベースとしたモデルでは,非LVLMモデルよりも社会的に偏りのある画像が顕著に生成される。
本研究では,LVLMを自己監査し,公平性を意識したシステムプロンプトを構築する訓練不要なメタプロンプトフレームワークであるFairProを提案する。
- 参考スコア(独自算出の注目度): 24.66322159985062
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large vision-language model (LVLM) based text-to-image (T2I) systems have become the dominant paradigm in image generation, yet whether they amplify social biases remains insufficiently understood. In this paper, we show that LVLM-based models produce markedly more socially biased images than non-LVLM-based models. We introduce a 1,024 prompt benchmark spanning four levels of linguistic complexity and evaluate demographic bias across multiple attributes in a systematic manner. Our analysis identifies system prompts, the predefined instructions guiding LVLMs, as a primary driver of biased behavior. Through decoded intermediate representations, token-probability diagnostics, and embedding-association analyses, we reveal how system prompts encode demographic priors that propagate into image synthesis. To this end, we propose FairPro, a training-free meta-prompting framework that enables LVLMs to self-audit and construct fairness-aware system prompts at test time. Experiments on two LVLM-based T2I models, SANA and Qwen-Image, show that FairPro substantially reduces demographic bias while preserving text-image alignment. We believe our findings provide deeper insight into the central role of system prompts in bias propagation and offer a practical, deployable approach for building more socially responsible T2I systems.
- Abstract(参考訳): 大規模視覚言語モデル (LVLM) に基づくテキスト・ツー・イメージシステム (T2I) は画像生成において支配的なパラダイムとなっているが、社会的バイアスを増幅するか否かはまだ十分に理解されていない。
本稿では,LVLMをベースとしたモデルが,非LVLMモデルよりも社会的に偏りのある画像を生成することを示す。
我々は,4段階の言語的複雑性にまたがる1,024のプロンプトベンチマークを導入し,複数の属性にまたがる人口統計バイアスを系統的に評価する。
本分析では,LVLMを誘導する事前定義された命令であるシステムプロンプトを,偏りのある動作の主要因として同定する。
本稿では,デコードされた中間表現,トークン確率診断,埋め込み連想分析を通じて,画像合成に伝播する人口動態をエンコードするシステムについて述べる。
そこで本研究では,LVLMの自己監査を可能にする学習不要なメタプロンプティングフレームワークであるFairProを提案する。
2つのLVLMベースのT2Iモデル、SANAとQwen-Imageの実験により、FairProはテキストイメージアライメントを保ちながら、人口統計バイアスを大幅に低減することが示された。
我々は,より社会的に責任を負うT2Iシステムを構築するために,システムプロンプトのバイアス伝播における中心的な役割について深い洞察を与え,実践的で展開可能なアプローチを提供すると信じている。
関連論文リスト
- Multimodal LLMs as Customized Reward Models for Text-to-Image Generation [60.164968941945645]
LLaVA-Rewardは、複数の視点でテキスト・ツー・イメージ(T2I)生成を自動評価する効率的な報酬モデルである。
LLaVA-Rewardはマルチモーダル大言語モデル(MLLM)の隠れ状態を直接利用する
LLaVA-Rewardは、テキストイメージアライメント、忠実さ/アーティファクト、安全性、全体的なランク付けの4つの観点でトレーニングします。
論文 参考訳(メタデータ) (2025-07-28T23:52:53Z) - Unlocking Compositional Control: Self-Supervision for LVLM-Based Image Generation [42.78181795494584]
テキストと画像の合成を大幅に進歩させるために設計された生成モデル。
Hi-SSLVLMは、ユニークな2段階の自己教師型学習戦略を通じて制限に対処する。
実験では、すべてのきめ細かいメトリクスに対してHi-SSLVLMの優れたパフォーマンスを実証している。
論文 参考訳(メタデータ) (2025-07-05T20:16:32Z) - Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance [67.26434607115392]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて印象的な成果を上げている。
LVLMは言語バイアスによる幻覚に悩まされ、画像や非効果的な視覚的理解に焦点が当てられなくなった。
MDA (Multimodal duAl-attention meChanIsm) aNd soft-image Guidance (IFG) を用いたLVLMの言語バイアスに対処するためのLACingを提案する。
論文 参考訳(メタデータ) (2024-11-21T16:33:30Z) - SocialGPT: Prompting LLMs for Social Relation Reasoning via Greedy Segment Optimization [70.11167263638562]
社会的関係推論は、友人、配偶者、同僚などの関係カテゴリを画像から識別することを目的としている。
まず、VFM(Vision Foundation Models)の知覚能力と、モジュラーフレームワーク内でのLLM(Large Language Models)の推論能力を組み合わせた、シンプルだが巧妙な名前のフレームワークを提示する。
論文 参考訳(メタデータ) (2024-10-28T18:10:26Z) - Thinking Fair and Slow: On the Efficacy of Structured Prompts for Debiasing Language Models [14.405446719317291]
既存のデバイアス技術はトレーニングベースまたはモデルの内部および出力分布へのアクセスを必要とするのが一般的である。
我々は,システム2の思考プロセスを適用し,論理的,反射的,批判的テキスト生成を誘導する,包括的エンドユーザー中心のデバイアスの反復的枠組みを評価する。
論文 参考訳(メタデータ) (2024-05-16T20:27:58Z) - Debiasing Multimodal Large Language Models via Penalization of Language Priors [38.97645845493758]
MLLM(Multimodal Large Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
生成されたコンテンツは、入力画像よりも、基礎となるLarge Language Models (LLMs) の本質的な先行性によって駆動されることが多い。
本稿では、これらのバイアスを補正し、視覚情報に対するモデルの焦点をリダイレクトするための、単純でトレーニングのない2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。