論文の概要: From Preferences to Prejudice: The Role of Alignment Tuning in Shaping Social Bias in Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2510.17247v1
- Date: Mon, 20 Oct 2025 07:37:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.351104
- Title: From Preferences to Prejudice: The Role of Alignment Tuning in Shaping Social Bias in Video Diffusion Models
- Title(参考訳): 選好から偏見:ビデオ拡散モデルにおける社会的バイアス形成におけるアライメント調整の役割
- Authors: Zefan Cai, Haoyi Qiu, Haozhe Zhao, Ke Wan, Jiachen Li, Jiuxiang Gu, Wen Xiao, Nanyun Peng, Junjie Hu,
- Abstract要約: 本稿では,ビデオ生成における社会的表現を評価するためのフレームワークであるVideoBiasEvalを紹介する。
VideoBiasEvalでは、アクター属性からセマンティックコンテンツをアンタングルするために、イベントベースのプロンプト戦略を採用している。
我々は、人間の嗜好データセットにおけるバイアス、報酬モデルにおける増幅、アライメント調整されたビデオ拡散モデルによる伝播を結合する最初のエンドツーエンド分析を行う。
- 参考スコア(独自算出の注目度): 69.4332879415364
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in video diffusion models have significantly enhanced text-to-video generation, particularly through alignment tuning using reward models trained on human preferences. While these methods improve visual quality, they can unintentionally encode and amplify social biases. To systematically trace how such biases evolve throughout the alignment pipeline, we introduce VideoBiasEval, a comprehensive diagnostic framework for evaluating social representation in video generation. Grounded in established social bias taxonomies, VideoBiasEval employs an event-based prompting strategy to disentangle semantic content (actions and contexts) from actor attributes (gender and ethnicity). It further introduces multi-granular metrics to evaluate (1) overall ethnicity bias, (2) gender bias conditioned on ethnicity, (3) distributional shifts in social attributes across model variants, and (4) the temporal persistence of bias within videos. Using this framework, we conduct the first end-to-end analysis connecting biases in human preference datasets, their amplification in reward models, and their propagation through alignment-tuned video diffusion models. Our results reveal that alignment tuning not only strengthens representational biases but also makes them temporally stable, producing smoother yet more stereotyped portrayals. These findings highlight the need for bias-aware evaluation and mitigation throughout the alignment process to ensure fair and socially responsible video generation.
- Abstract(参考訳): 映像拡散モデルの最近の進歩は、特に人間の嗜好に基づいて訓練された報酬モデルを用いたアライメントチューニングによって、テキスト・ビデオ生成を大幅に改善した。
これらの手法は視覚的品質を改善するが、意図せずにエンコードし、社会的偏見を増幅することができる。
このようなバイアスがアライメントパイプラインを通してどのように進化するかを体系的に追跡するために,ビデオ生成における社会的表現を評価するための総合的な診断フレームワークであるVideoBiasEvalを紹介した。
確立された社会的偏見の分類に基づいて、VideoBiasEvalは、アクター属性(性別と民族)からセマンティックコンテンツ(アクションとコンテキスト)をアンタングルするイベントベースのプロンプト戦略を採用している。
さらに、(1)全体民族性バイアス、(2)民族性に条件づけられた性別バイアス、(3)モデル変種間の社会的属性の分布変化、(4)ビデオ内のバイアスの時間的持続性を評価するために、多粒度メトリクスを導入している。
このフレームワークを用いて、人間の嗜好データセットのバイアス、報酬モデルの増幅、アライメント調整されたビデオ拡散モデルによる伝播を結合する最初のエンドツーエンド分析を行う。
その結果、アライメント調整は表現バイアスを強めるだけでなく、時間的に安定し、よりスムーズでステレオタイプ化された表現を生み出すことが明らかとなった。
これらの知見は、公平で社会的に責任のあるビデオ生成を保証するために、アライメントプロセス全体を通してバイアス認識の評価と緩和の必要性を強調している。
関連論文リスト
- Exploring Bias in over 100 Text-to-Image Generative Models [49.60774626839712]
本稿では,Hugging Faceのようなオープンプラットフォームによるモデルの利用率向上に着目し,テキストから画像への生成モデルにおけるバイアスの傾向について検討する。
我々は, (i) 分布バイアス, (ii) 生成幻覚, (iii) 生成ミスレートの3つの主要な次元にまたがるバイアスを評価する。
以上の結果から, 芸術的モデルとスタイル変換モデルに有意なバイアスが生じる一方で, より広範なトレーニング分布の恩恵を受ける基礎モデルでは, 徐々にバイアスが減っていることが示唆された。
論文 参考訳(メタデータ) (2025-03-11T03:40:44Z) - Identifying and Mitigating Social Bias Knowledge in Language Models [52.52955281662332]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - Finetuning Text-to-Image Diffusion Models for Fairness [43.80733100304361]
公平性は分布的アライメント問題である。
経験的手法では、職業的プロンプトに対する性別、人種、およびそれらの交叉バイアスを著しく低減する。
我々の手法は絶対的平等を超えた公平性の多様な視点を支えている。
論文 参考訳(メタデータ) (2023-11-11T05:40:54Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Detection and Mitigation of Bias in Ted Talk Ratings [3.3598755777055374]
入射バイアスは行動条件であり、特定のグループのメンバーに所定の特性を付与する。
本稿では、社会的・職業的なパフォーマンスを評価する多様なソーシャルプラットフォームであるTEDTalksの視聴者評価における暗黙のバイアスを定量化する。
論文 参考訳(メタデータ) (2020-03-02T06:13:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。