論文の概要: Polarization by Default: Auditing Recommendation Bias in LLM-Based Content Curation
- arxiv url: http://arxiv.org/abs/2604.15937v1
- Date: Fri, 17 Apr 2026 10:55:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.87973
- Title: Polarization by Default: Auditing Recommendation Bias in LLM-Based Content Curation
- Title(参考訳): デフォルトによる分極:LCMによるコンテンツキュレーションにおける勧告バイアスの監査
- Authors: Nicolò Pagan, Christopher Barrie, Chris Andrew Bail, Petter Törnberg,
- Abstract要約: Twitter/X、Bluesky、Redditの実際のソーシャルメディアデータセットに、コンテンツ選択バイアスをマップします。
偏見は、構造的・迅速な感度の点で大きく異なることがわかりました。
著者の人口統計がプロフィールから推測できるTwitter/Xでは、政治的偏見が最も明確な人口統計信号である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly deployed to curate and rank human-created content, yet the nature and structure of their biases in these tasks remains poorly understood: which biases are robust across providers and platforms, and which can be mitigated through prompt design. We present a controlled simulation study mapping content selection biases across three major LLM providers (OpenAI, Anthropic, Google) on real social media datasets from Twitter/X, Bluesky, and Reddit, using six prompting strategies (\textit{general}, \textit{popular}, \textit{engaging}, \textit{informative}, \textit{controversial}, \textit{neutral}). Through 540,000 simulated top-10 selections from pools of 100 posts across 54 experimental conditions, we find that biases differ substantially in how structural and how prompt-sensitive they are. Polarization is amplified across all configurations, toxicity handling shows a strong inversion between engagement- and information-focused prompts, and sentiment biases are predominantly negative. Provider comparisons reveal distinct trade-offs: GPT-4o Mini shows the most consistent behavior across prompts; Claude and Gemini exhibit high adaptivity in toxicity handling; Gemini shows the strongest negative sentiment preference. On Twitter/X, where author demographics can be inferred from profile bios, political leaning bias is the clearest demographic signal: left-leaning authors are systematically over-represented despite right-leaning authors forming the pool plurality in the dataset, and this pattern largely persists across prompts.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人間の作成したコンテンツをキュレートし、ランク付けするためにますますデプロイされているが、これらのタスクにおけるそれらのバイアスの性質と構造は、まだ理解されていない。
我々は,Twitter/X,Bluesky,Redditのソーシャルメディアデータセット上で,3大LLMプロバイダ(OpenAI, Anthropic, Google)のコンテンツ選択バイアスを6つのプロンプト戦略(\textit{general}, \textit{popular}, \textit{engaging}, \textit{informative}, \textit{controversial}, \textit{neutral})を用いてマッピングする。
54の実験条件において、100のポストのプールから54万個のトップ10の選択をシミュレートすることで、バイアスがいかに構造的、そしてどの程度の速さで大きく異なることが判明した。
偏光はあらゆる構成で増幅され、毒性の取扱いはエンゲージメントと情報重視のプロンプトの強い逆転を示し、感情バイアスは主に否定的である。
GPT-4o Miniはプロンプト間で最も一貫した振る舞いを示し、ClaudeとGeminiは毒性処理に高い適応性を示す。
左利きの著者は、データセットに複数のプールを形成する右利きの著者にもかかわらず、体系的に過剰に表現されている。
関連論文リスト
- Bi-directional Bias Attribution: Debiasing Large Language Models without Modifying Prompts [29.864293711943038]
本研究では, 言語モデルにおいて, ステレオタイプ誘導語を検出し, ニューロンレベルのバイアスをもたらすフレームワークを提案する。
本フレームワークはまず, 集団間の比較分析により, ステレオタイプ誘導形容詞と名詞を識別する。
3つの LLM 実験により,本手法はモデル全体の性能を保ちながらバイアスを効果的に低減することを示した。
論文 参考訳(メタデータ) (2026-02-04T10:27:36Z) - Robustly Improving LLM Fairness in Realistic Settings via Interpretability [0.16843915833103415]
現実的な文脈の詳細が導入されたとき、アンチバイアスプロンプトは失敗する。
企業名や公的キャリアページからの文化記述などの現実的なコンテキストの追加,選択的な雇用制限は,人種的および性別的偏見を著しく引き起こすことが判明した。
我々の内部バイアス緩和は人種や性別に関連する方向を特定し、推論時にアフィンの概念を編集する。
論文 参考訳(メタデータ) (2025-06-12T17:34:38Z) - Large Language Models Still Exhibit Bias in Long Text [14.338308312117901]
大規模言語モデルにおけるバイアスを評価するフレームワークであるLong Text Fairness Test (LTF-TEST)を紹介する。
LTF-TESTはモデル応答とそれらの背後にある推論の両方を評価することで、単純な応答では検出が難しい微妙なバイアスを明らかにする。
FT-REGARD(FT-REGARD)を提案する。
論文 参考訳(メタデータ) (2024-10-23T02:51:33Z) - From Lists to Emojis: How Format Bias Affects Model Alignment [67.08430328350327]
人的フィードバックからの強化学習における形式バイアスについて検討する。
人間の評価者を含む多くの広く使われている嗜好モデルは、特定のフォーマットパターンに対して強いバイアスを示す。
バイアスデータが少ないと、報酬モデルにかなりのバイアスを注入できることを示す。
論文 参考訳(メタデータ) (2024-09-18T05:13:18Z) - Take Care of Your Prompt Bias! Investigating and Mitigating Prompt Bias in Factual Knowledge Extraction [56.17020601803071]
近年の研究では、事前学習言語モデル(PLM)が、事実知識抽出において「急激なバイアス」に悩まされていることが示されている。
本稿では,突発バイアスを徹底的に調査し緩和することにより,既存のベンチマークの信頼性を向上させることを目的とする。
論文 参考訳(メタデータ) (2024-03-15T02:04:35Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - Fair Abstractive Summarization of Diverse Perspectives [103.08300574459783]
公平な要約は、特定のグループを過小評価することなく、多様な視点を包括的にカバーしなければなりません。
はじめに、抽象的な要約における公正性は、いかなる集団の視点にも過小評価されないものとして、正式に定義する。
本研究では,対象視点と対象視点の差を測定することで,基準のない4つの自動計測手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T03:38:55Z) - CBBQ: A Chinese Bias Benchmark Dataset Curated with Human-AI
Collaboration for Large Language Models [52.25049362267279]
本稿では,人的専門家と生成言語モデルによって共同で構築された100万以上の質問からなる中国語バイアスベンチマークデータセットを提案する。
データセットのテストインスタンスは、手作業による厳格な品質管理を備えた3K以上の高品質テンプレートから自動的に抽出される。
大規模な実験により、データセットがモデルバイアスを検出することの有効性が実証された。
論文 参考訳(メタデータ) (2023-06-28T14:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。