論文の概要: Bias at the End of the Score
- arxiv url: http://arxiv.org/abs/2604.13305v1
- Date: Tue, 14 Apr 2026 21:20:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.303058
- Title: Bias at the End of the Score
- Title(参考訳): スコアの終わりのバイアス
- Authors: Salma Abdel Magid, Grace Guo, Esin Tureci, Amaya Dharmasiri, Vikram V. Ramaswamy, Hanspeter Pfister, Olga Russakovsky,
- Abstract要約: リワードモデル(RM)は本質的には、特定の目的をエンコードするために設計された非中立値関数である。
我々は、T2Iモデルトレーニングおよび生成において、人口統計バイアスに関するRMロバスト性に関する大規模な監査を行う。
- 参考スコア(独自算出の注目度): 42.96226771321315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward models (RMs) are inherently non-neutral value functions designed and trained to encode specific objectives, such as human preferences or text-image alignment. RMs have become crucial components of text-to-image (T2I) generation systems where they are used at various stages for dataset filtering, as evaluation metrics, as a supervisory signal during optimization of parameters, and for post-generation safety and quality filtering of T2I outputs. While specific problems with the integration of RMs into the T2I pipeline have been studied (e.g. reward hacking or mode collapse), their robustness and fairness as scoring functions remains largely unknown. We conduct a large scale audit of RM robustness with respect to demographic biases during T2I model training and generation. We provide quantitative and qualitative evidence that while originally developed as quality measures, RMs encode demographic biases, which cause reward-guided optimization to disproportionately sexualize female image subjects reinforce gender/racial stereotypes, and collapse demographic diversity. These findings highlight shortcomings in current reward models, challenge their reliability as quality metrics, and underscore the need for improved data collection and training procedures to enable more robust scoring.
- Abstract(参考訳): Reward Model(RM)は本質的に、人間の好みやテキストイメージアライメントなど、特定の目的をエンコードするように設計、訓練された非中立値関数である。
RMはテキスト・トゥ・イメージ(T2I)生成システムにおいて重要なコンポーネントとなり、データセット・フィルタリング、評価指標、パラメータの最適化時の監視信号、T2I出力のポストジェネレーション安全性と品質フィルタリングに利用されてきた。
T2IパイプラインへのRMの統合に関する具体的な問題(例えば、報酬ハックやモード崩壊など)は研究されているが、スコアリング関数としての堅牢性と公正性はほとんど不明である。
我々は、T2Iモデルトレーニングおよび生成において、人口統計バイアスに関するRMロバスト性に関する大規模な監査を行う。
我々は、もともと品質指標として開発されたが、RMは人口統計バイアスを符号化し、報酬誘導最適化によって女性画像の被験者を不均等にセクシュアライズし、性別や人種のステレオタイプを強化し、人口統計の多様性を崩壊させる、量的および質的な証拠を提供する。
これらの調査結果は、現在の報酬モデルの欠点、品質指標としての信頼性への挑戦、より堅牢なスコアリングを可能にするためのデータ収集とトレーニング手順の改善の必要性を浮き彫りにしている。
関連論文リスト
- SoliReward: Mitigating Susceptibility to Reward Hacking and Annotation Noise in Video Generation Reward Models [53.19726629537694]
ビデオ生成モデルと人間の好みのトレーニング後のアライメントは、重要な目標である。
現在のデータ収集パラダイムは、プロンプト内のペアワイズアノテーションに依存しており、ノイズのラベル付けに悩まされている。
ビデオRMトレーニングのための体系的フレームワークであるSoliRewardを提案する。
論文 参考訳(メタデータ) (2025-12-17T14:28:23Z) - Evaluating and Preserving High-level Fidelity in Super-Resolution [50.65679806442527]
超解像モデル(SR)は、細部を再構築し、快適な視覚出力を提供することで印象的な効果を達成している。
しかし、過剰な生成能力は時として幻覚を起こし、画像の内容を変えることがある。
この種のハイレベルな変化は、人間によって容易に識別できるが、既存の低レベルの画像品質指標では十分に研究されていない。
論文 参考訳(メタデータ) (2025-12-07T22:53:34Z) - Model-Agnostic Gender Bias Control for Text-to-Image Generation via Sparse Autoencoder [14.164976259534143]
テキスト・ツー・イメージ(T2I)拡散モデルでは、特に専門職と性的な対象のステレオタイプ的関連を生じることにより、性別バイアスが生じることが多い。
本稿では,T2I生成におけるそのようなバイアスを軽減するためのモデルに依存しないフレームワークであるSAE Debiasを提案する。
我々の知る限りでは、これはT2Iモデル内の性別バイアスを特定し、介入するためにスパースオートエンコーダを適用する最初の試みである。
論文 参考訳(メタデータ) (2025-07-28T16:36:13Z) - T2I-Eval-R1: Reinforcement Learning-Driven Reasoning for Interpretable Text-to-Image Evaluation [60.620408007636016]
T2I-Eval-R1は,大まかな品質スコアのみを用いて,オープンソースのMLLMを訓練する新しい強化学習フレームワークである。
提案手法では,グループ相対政策最適化を命令調整プロセスに統合し,スカラースコアと解釈可能な推論チェーンの両方を生成する。
論文 参考訳(メタデータ) (2025-05-23T13:44:59Z) - FairT2I: Mitigating Social Bias in Text-to-Image Generation via Large Language Model-Assisted Detection and Attribute Rebalancing [32.01426831450348]
本稿では,T2I生成における社会的バイアスの検出と緩和に,大規模言語モデルを活用する新しいフレームワークであるFairT2Iを紹介する。
以上の結果から,FairT2Iは社会的偏見を緩和し,画像の感度特性の多様性を高めることができた。
論文 参考訳(メタデータ) (2025-02-06T07:22:57Z) - Delving into Identify-Emphasize Paradigm for Combating Unknown Bias [52.76758938921129]
同定精度を高めるため,有効バイアス強調スコアリング法(ECS)を提案する。
また, マイニングされたバイアスアライメントとバイアスコンプリケート試料のコントリビューションのバランスをとるために, 勾配アライメント(GA)を提案する。
様々な環境で複数のデータセットで実験を行い、提案されたソリューションが未知のバイアスの影響を軽減することを実証した。
論文 参考訳(メタデータ) (2023-02-22T14:50:24Z) - On Feature Learning in the Presence of Spurious Correlations [45.86963293019703]
得られた特徴表現の質は,提案手法以外の設計決定に大きく影響されていることを示す。
我々は,人気のウォーターバード,セレブの髪の色予測,WILDS-FMOW問題に関する文献で報告された最良の結果を大幅に改善した。
論文 参考訳(メタデータ) (2022-10-20T16:10:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。