論文の概要: Auditing Preferences for Brands and Cultures in LLMs
- arxiv url: http://arxiv.org/abs/2603.18300v1
- Date: Wed, 18 Mar 2026 21:38:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.858749
- Title: Auditing Preferences for Brands and Cultures in LLMs
- Title(参考訳): LLMにおけるブランドと文化に対する評価
- Authors: Jasmine Rienecker, Katarina Mpofu, Naman Goel, Siddhartha Datta, Jun Zhao, Oscar Danielsson, Fredrik Thorsen,
- Abstract要約: 本稿では,大規模言語モデル(LLM)におけるブランドや文化の嗜好を監査するための再現可能なフレームワークであるChoiceEvalを紹介する。
ChoiceEvalは、現実的でペルソナの異なる評価クエリを生成し、自由形式のアウトプットを同等の選択セットと定量的選好メトリクスに変換する、という2つの技術的な課題に対処する。
Gemini、GPT、DeepSeekは、商業と文化にまたがる10のトピックと2,000以上の質問に適用される。
- 参考スコア(独自算出の注目度): 9.677509409150549
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) based AI systems increasingly mediate what billions of people see, choose and buy. This creates an urgent need to quantify the systemic risks of LLM-driven market intermediation, including its implications for market fairness, competition, and the diversity of information exposure. This paper introduces ChoiceEval, a reproducible framework for auditing preferences for brands and cultures in large language models (LLMs) under realistic usage conditions. ChoiceEval addresses two core technical challenges: (i) generating realistic, persona-diverse evaluation queries and (ii) converting free-form outputs into comparable choice sets and quantitative preference metrics. For a given topic (e.g. running shoes, hotel chains, travel destinations), the framework segments users into psychographic profiles (e.g., budget-conscious, wellness-focused, convenience), and then derives diverse prompts that reflect real-world advice-seeking and decision-making behaviour. LLM responses are converted into normalised top-k choice sets. Preference and geographic bias are then quantified using comparable metrics across topics and personas. Thus, ChoiceEval provides a scalable audit pipeline for researchers, platforms, and regulators, linking model behaviour to real-world economic outcomes. Applied to Gemini, GPT, and DeepSeek across 10 topics spanning commerce and culture and more than 2,000 questions, ChoiceEval reveals consistent preferences: U.S.-developed models Gemini and GPT show marked favouritism toward American entities, while China-developed DeepSeek exhibits more balanced yet still detectable geographic preferences. These patterns persist across user personas, suggesting systematic rather than incidental effects.
- Abstract(参考訳): 大規模言語モデル(LLM)ベースのAIシステムは、何十億もの人々が見ているか、選択し、購入するかをますます仲介する。
これにより、市場公正性、競争、情報露出の多様性など、LCMが主導する市場介入のシステム的リスクを定量化する緊急の必要が生じる。
本稿では,大規模言語モデル(LLM)におけるブランドや文化の嗜好を現実的な使用条件下で監査するための再現可能なフレームワークであるChoiceEvalを紹介する。
ChoiceEvalは2つの技術的な課題に対処する。
(i)現実的、ペルソナ・ディバース評価クエリを生成して
(ii)自由形式の出力を同等の選択セットと定量的選好メトリクスに変換する。
特定のトピック(例えば、ランニングシューズ、ホテルチェーン、旅行先)について、このフレームワークはユーザーをサイコグラフィープロファイル(例えば、予算重視、ウェルネス重視、利便性)に分割し、現実世界のアドバイスと意思決定の振る舞いを反映したさまざまなプロンプトを導出する。
LLM応答は正規化されたトップk選択集合に変換される。
優先順位と地理的バイアスはトピックやペルソナにまたがる同等のメトリクスを使って定量化されます。
このように、ChoiceEvalは、研究者、プラットフォーム、規制当局のためのスケーラブルな監査パイプラインを提供し、モデル行動と実際の経済成果をリンクする。
Gemini、GPT、DeepSeekなど、商業と文化にまたがる10のトピックと2000以上の質問に適用されるChoiceEvalは、一貫した嗜好を明らかにしている。
これらのパターンはユーザペルソナ全体に持続し、インシデント効果よりもシステマティックな効果を示唆する。
関連論文リスト
- Would a Large Language Model Pay Extra for a View? Inferring Willingness to Pay from Subjective Choices [1.8759305308855918]
大規模言語モデル(LLM)は、旅行支援や購入支援といったアプリケーションにますます導入されている。
我々は、選択ジレンマを持つモデルを提示し、それらの応答を解析することにより、旅行支援文脈におけるLCM意思決定について検討する。
提案手法では,より大きなLLMに対して有意なWTP値が導出可能である一方で,属性レベルでの系統的偏差も示す。
論文 参考訳(メタデータ) (2026-02-10T14:05:42Z) - EVALUESTEER: Measuring Reward Model Steerability Towards Values and Preferences [43.42154744611566]
大規模言語モデル(LLM)は世界中に展開され、世界中のユーザの多様な好みに合わせて複数のシステムを生成する。
ESTEERは、モデルのユーザ価値とスタイリスティックな嗜好プロファイルに対する操縦性を測定するためのベンチマークである。
論文 参考訳(メタデータ) (2025-10-07T18:36:15Z) - PerFairX: Is There a Balance Between Fairness and Personality in Large Language Model Recommendations? [0.47745223151611654]
LLM生成レコメンデーションにおけるパーソナライズと人口統計学的株式のトレードオフを定量化するためにPerFairXを提案する。
我々は、映画(MovieLens 10M)と音楽(Last.fm 360K)のデータセットで、最先端の2つのLLMであるChatGPTとDeepSeekをベンチマークする。
DeepSeekはより強い心理的適合性を達成するが、変化を促すために高い感度を示す一方、ChatGPTは安定しているがパーソナライズされていない出力を提供する。
論文 参考訳(メタデータ) (2025-08-20T09:41:53Z) - Revisiting LLM Value Probing Strategies: Are They Robust and Expressive? [81.49470136653665]
広範に利用されている3つの探索戦略における値表現の頑健さと表現性を評価する。
人口統計学的文脈は自由テキスト生成にはほとんど影響を与えず、モデルの値は値に基づく行動の好みと弱い相関しか示さない。
論文 参考訳(メタデータ) (2025-07-17T18:56:41Z) - Unequal Opportunities: Examining the Bias in Geographical Recommendations by Large Language Models [11.585115320816257]
本研究では,米国の都市・都市におけるLarge Language Models(LLMs)勧告におけるバイアスについて検討した。
我々は, LLMs応答の一貫性と, 過度に表現されたり, あるいは過度に表現されたりする傾向に注目した。
以上の結果から,従来の経済格差を拡大するリッチ・ゲット・リッチ・エフェクトが持続する可能性が示唆された。
論文 参考訳(メタデータ) (2025-03-16T18:59:00Z) - Diverging Preferences: When do Annotators Disagree and do Models Know? [92.24651142187989]
我々は,4つのハイレベルクラスにまたがる10のカテゴリにまたがる相違点の分類法を開発した。
意見の相違の大部分は、標準的な報酬モデリングアプローチに反対している。
本研究は,選好の変化を識別し,評価とトレーニングへの影響を緩和する手法を開発する。
論文 参考訳(メタデータ) (2024-10-18T17:32:22Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。