論文の概要: Bias Amplification: Large Language Models as Increasingly Biased Media
- arxiv url: http://arxiv.org/abs/2410.15234v3
- Date: Tue, 20 May 2025 16:53:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 14:49:20.818778
- Title: Bias Amplification: Large Language Models as Increasingly Biased Media
- Title(参考訳): バイアス増幅:大規模言語モデルとメディアのバイアス増加
- Authors: Ze Wang, Zekun Wu, Jeremy Zhang, Xin Guan, Navya Jain, Skylar Lu, Saloni Gupta, Adriano Koshiyama,
- Abstract要約: 大規模言語モデル(LLM)における政治的偏見の増幅を測定するためのベンチマークを導入する。
GPT-2を用いた実証研究により,反復的合成訓練サイクルに対する政治的偏りの持続的および実質的な増大が明らかとなった。
我々は,3つの緩和戦略,オーバーフィッティング,保存,蓄積を評価し,バイアス増幅がモデル崩壊から独立して持続することを示す。
- 参考スコア(独自算出の注目度): 12.376194654498383
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Model collapse, a phenomenon characterized by performance degradation due to iterative training on synthetic data, has been widely studied. However, its implications for bias amplification, the progressive intensification of pre-existing societal biases in Large Language Models (LLMs), remain significantly underexplored, despite the growing influence of LLMs in shaping online discourse. In this paper, we introduce a open, generational, and long-context benchmark specifically designed to measure political bias amplification in LLMs, leveraging sentence continuation tasks derived from a comprehensive dataset of U.S. political news. Our empirical study using GPT-2 reveals consistent and substantial political bias intensification (e.g., right-leaning amplification) over iterative synthetic training cycles. We evaluate three mitigation strategies, Overfitting, Preservation, and Accumulation, and demonstrate that bias amplification persists independently of model collapse, even when the latter is effectively controlled. Furthermore, we propose a mechanistic analysis approach that identifies neurons correlated with specific phenomena during inference through regression and statistical tests. This analysis uncovers largely distinct neuron populations driving bias amplification and model collapse, underscoring fundamentally different underlying mechanisms. Finally, we supplement our empirical findings with theoretical intuition that explains the separate origins of these phenomena, guiding targeted strategies for bias mitigation.
- Abstract(参考訳): 合成データの反復学習による性能劣化を特徴とするモデル崩壊の研究が盛んに行われている。
しかし, 大規模言語モデル (LLMs) において, 偏見の増幅, 既存の社会的偏見の漸進的な増大は, オンライン談話形成における LLMs の影響が増大しているにもかかわらず, 明らかに過小評価されている。
本稿では、LLMにおける政治的偏見の増幅を測るためのオープンで世代別、長期のベンチマークを導入し、米国の政治ニュースの包括的データセットから得られた文継続タスクを活用する。
GPT-2を用いた実証研究は、反復的な合成学習サイクルに対する政治的偏見の増大(例えば、右利きの増幅)を持続的に明らかにしている。
我々は, 3つの緩和戦略, オーバーフィッティング, 保存, 蓄積を評価し, バイアス増幅がモデル崩壊から独立して持続することを示した。
さらに、回帰および統計的テストにより、推論中に特定の現象と相関するニューロンを同定する機構解析手法を提案する。
この分析により、バイアス増幅とモデル崩壊を誘導する神経細胞の個体群が明らかになり、基礎的なメカニズムが根本的に異なることが判明した。
最後に、これらの現象の別々の起源を説明する理論的直観で経験的知見を補足し、偏見緩和のための目標戦略を導いた。
関連論文リスト
- Prismatic Synthesis: Gradient-based Data Diversification Boosts Generalization in LLM Reasoning [77.120955854093]
我々は,データ多様性が言語モデルにおける一般化の強力な予測因子であることを示す。
モデル誘起勾配のエントロピーを通して多様性を定量化する計量であるG-Vendiを導入する。
多様な合成データを生成するためのフレームワークであるPrismatic Synthesisを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:05:10Z) - Exploring Bias in over 100 Text-to-Image Generative Models [49.60774626839712]
本稿では,Hugging Faceのようなオープンプラットフォームによるモデルの利用率向上に着目し,テキストから画像への生成モデルにおけるバイアスの傾向について検討する。
我々は, (i) 分布バイアス, (ii) 生成幻覚, (iii) 生成ミスレートの3つの主要な次元にまたがるバイアスを評価する。
以上の結果から, 芸術的モデルとスタイル変換モデルに有意なバイアスが生じる一方で, より広範なトレーニング分布の恩恵を受ける基礎モデルでは, 徐々にバイアスが減っていることが示唆された。
論文 参考訳(メタデータ) (2025-03-11T03:40:44Z) - Actions Speak Louder than Words: Agent Decisions Reveal Implicit Biases in Language Models [10.565316815513235]
大規模言語モデル(LLM)は、人間の振る舞いをシミュレートする際にも暗黙の偏見を示すことがある。
ほぼすべてのシミュレーションにおいて,最先端のLDMは社会デマトグラフィーの相違が顕著であることを示す。
実験結果と実世界の格差を比較すると、我々が発見したバイアスは方向整列されているが、顕著に増幅されていることがわかった。
論文 参考訳(メタデータ) (2025-01-29T05:21:31Z) - How far can bias go? -- Tracing bias from pretraining data to alignment [54.51310112013655]
本研究では, 事前学習データにおける性別占有バイアスと, LLMにおける性別占有バイアスの相関について検討した。
その結果,事前学習データに存在するバイアスがモデル出力に増幅されることが判明した。
論文 参考訳(メタデータ) (2024-11-28T16:20:25Z) - Toward Understanding In-context vs. In-weight Learning [50.24035812301655]
本研究は,文脈内学習の出現と消失を引き起こす簡易な分布特性を同定する。
そして、この研究を完全な大規模言語モデルに拡張し、自然言語プロンプトの様々なコレクションの微調整が、文脈内および重み付き学習の振る舞いをいかに引き出すかを示す。
論文 参考訳(メタデータ) (2024-10-30T14:09:00Z) - An Effective Theory of Bias Amplification [18.648588509429167]
機械学習モデルは、データに存在するバイアスをキャプチャして増幅し、社会的グループ間で異なるテストパフォーマンスをもたらす。
本稿では、従来のニューラルネットワークを単純化した状態下でモデル化するリッジ回帰の文脈において、正確な解析理論を提案する。
我々の理論は、機械学習バイアスの統一的で厳密な説明を提供し、バイアス増幅やマイノリティグループバイアスのような現象に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-10-07T08:43:22Z) - Bias Begets Bias: The Impact of Biased Embeddings on Diffusion Models [0.0]
テキスト・トゥ・イメージ(TTI)システムは、社会的偏見に対する精査が増加している。
組込み空間をTTIモデルのバイアス源として検討する。
CLIPのような偏りのあるマルチモーダル埋め込みは、表現バランスの取れたTTIモデルに対して低いアライメントスコアをもたらす。
論文 参考訳(メタデータ) (2024-09-15T01:09:55Z) - Editable Fairness: Fine-Grained Bias Mitigation in Language Models [52.66450426729818]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - Bias in Motion: Theoretical Insights into the Dynamics of Bias in SGD Training [7.5041863920639456]
機械学習システムは、データの望ましくない特徴を活用してバイアスを取得し、異なるサブポピュレーションの精度に影響を与えることが多い。
本稿では, ガウス混合モデルを用いて, 教師学生によるデータサブポピュレーションのモデル化におけるバイアスの進化について検討する。
この発見を公平性と堅牢性に適用することで、不均一なデータと突発的な特徴がバイアスを発生し増幅する方法について、いつ、どのように、どのように、どのようにして、そして、どのようにして、そのバイアスを増大させるかを説明します。
論文 参考訳(メタデータ) (2024-05-28T15:50:10Z) - IM-Context: In-Context Learning for Imbalanced Regression Tasks [9.318067144029403]
本稿では,従来の非重み付き学習手法の代替として,文脈内学習へのパラダイムシフトを提案する。
インコンテキスト学習(In-context learning)とは、インコンテキストサンプルからなるプロンプトシーケンスが与えられたモデル自体を条件にすることができることを指す。
理論的および経験的両視点から,プロンプトシーケンスがモデル性能に与える影響について検討した。
論文 参考訳(メタデータ) (2024-05-28T14:10:51Z) - Beyond DAGs: A Latent Partial Causal Model for Multimodal Learning [80.44084021062105]
本稿では,非方向エッジで連結された2つの潜在結合変数を特徴とする,多モーダルデータに対する新しい潜在部分因果モデルを提案する。
特定の統計的仮定の下では、多モーダル・コントラッシブ・ラーニングによって学習された表現が、自明な変換までの潜在結合変数に対応することを示す。
事前トレーニングされたCLIPモデルの実験は、非絡み合った表現を具現化し、数ショットの学習を可能にし、さまざまな現実世界のデータセットにわたるドメインの一般化を改善する。
論文 参考訳(メタデータ) (2024-02-09T07:18:06Z) - Data Attribution for Diffusion Models: Timestep-induced Bias in Influence Estimation [53.27596811146316]
拡散モデルは、以前の文脈における瞬間的な入出力関係ではなく、一連のタイムステップで操作する。
本稿では、この時間的ダイナミクスを取り入れた拡散トラクInについて、サンプルの損失勾配ノルムが時間ステップに大きく依存していることを確認する。
そこで我々はDiffusion-ReTracを再正規化適応として導入し、興味のあるサンプルを対象にしたトレーニングサンプルの検索を可能にする。
論文 参考訳(メタデータ) (2024-01-17T07:58:18Z) - A U-turn on Double Descent: Rethinking Parameter Counting in Statistical
Learning [68.76846801719095]
二重降下がいつどこで起こるのかを正確に示し、その位置が本質的に閾値 p=n に結び付けられていないことを示す。
これは二重降下と統計的直観の間の緊張を解消する。
論文 参考訳(メタデータ) (2023-10-29T12:05:39Z) - Bias in Pruned Vision Models: In-Depth Analysis and Countermeasures [93.17009514112702]
ニューラルネットワークのパラメータのかなりの部分集合をゼロに設定するプルーニングは、モデル圧縮の最も一般的な方法の1つである。
この現象の既存の証拠にもかかわらず、ニューラルネットワークのプルーニングと誘導バイアスの関係はよく理解されていない。
論文 参考訳(メタデータ) (2023-04-25T07:42:06Z) - Extracting or Guessing? Improving Faithfulness of Event Temporal
Relation Extraction [87.04153383938969]
本研究では,TempRel抽出モデルの忠実度を2つの観点から改善する。
第1の視点は、文脈記述に基づいて真に抽出することである。
第2の視点は、適切な不確実性評価を提供することである。
論文 参考訳(メタデータ) (2022-10-10T19:53:13Z) - Bias-inducing geometries: an exactly solvable data model with fairness implications [12.532003449620607]
我々は、正確に解決可能なデータ不均衡の高次元モデルを導入する。
この合成フレームワークで訓練された学習モデルの典型的特性を解析的に解き放つ。
フェアネス評価によく用いられる観測対象の正確な予測値を得る。
論文 参考訳(メタデータ) (2022-05-31T16:27:57Z) - A Systematic Study of Bias Amplification [16.245943270343343]
近年の研究では、機械学習モデルによる予測は、トレーニングデータに存在するバイアスを増幅することができることが示唆されている。
我々は、バイアス増幅の発生時期と発生状況について、初めて体系的に制御された研究を行う。
論文 参考訳(メタデータ) (2022-01-27T18:04:24Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - Learning Debiased Models with Dynamic Gradient Alignment and
Bias-conflicting Sample Mining [39.00256193731365]
ディープニューラルネットワークは、堅牢性、一般化、公正性をモデル化するのに有害なデータセットバイアスに悩まされている。
難解な未知のバイアスと戦うための2段階のデバイアス方式を提案する。
論文 参考訳(メタデータ) (2021-11-25T14:50:10Z) - A Generative Approach for Mitigating Structural Biases in Natural
Language Inference [24.44419010439227]
本研究では、NLIタスクを生成タスクとして再構成し、モデルが入力とラベルのバイアス付きサブセットに条件付けされるようにする。
このアプローチは大量のバイアスに対して非常に堅牢であることを示す。
生成モデルは訓練が困難であり、識別ベースラインよりも一般的にはパフォーマンスが悪くなっている。
論文 参考訳(メタデータ) (2021-08-31T17:59:45Z) - Improving Robustness by Augmenting Training Sentences with
Predicate-Argument Structures [62.562760228942054]
データセットバイアスに対するロバスト性を改善する既存のアプローチは、主にトレーニング目標の変更に焦点を当てている。
本稿では,学習データ中の入力文に対応する述語句構造を付加することを提案する。
特定のバイアスを対象とせずに、文の増大は、複数のバイアスに対してトランスフォーマーモデルの堅牢性を向上することを示す。
論文 参考訳(メタデータ) (2020-10-23T16:22:05Z) - Mitigating Gender Bias Amplification in Distribution by Posterior
Regularization [75.3529537096899]
本稿では,男女差の増幅問題について,分布の観点から検討する。
後続正則化に基づくバイアス緩和手法を提案する。
私たちの研究はバイアス増幅の理解に光を当てている。
論文 参考訳(メタデータ) (2020-05-13T11:07:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。