論文の概要: FairEval: Evaluating Fairness in LLM-Based Recommendations with Personality Awareness
- arxiv url: http://arxiv.org/abs/2504.07801v1
- Date: Thu, 10 Apr 2025 14:38:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 12:21:55.041772
- Title: FairEval: Evaluating Fairness in LLM-Based Recommendations with Personality Awareness
- Title(参考訳): FairEval:パーソナリティを意識したLLM勧告の公正性評価
- Authors: Chandan Kumar Sah, Xiaoli Lian, Tony Xu, Li Zhang,
- Abstract要約: 推薦システムにおける公平性を評価するための新しい評価フレームワークであるFairEvalを紹介する。
音楽や映画のレコメンデーションに基づいてChatGPT 4oやGemini 1.5 Flashなどのモデルを評価する。
- 参考スコア(独自算出の注目度): 3.5665328754813768
- License:
- Abstract: Recent advances in Large Language Models (LLMs) have enabled their application to recommender systems (RecLLMs), yet concerns remain regarding fairness across demographic and psychological user dimensions. We introduce FairEval, a novel evaluation framework to systematically assess fairness in LLM-based recommendations. FairEval integrates personality traits with eight sensitive demographic attributes,including gender, race, and age, enabling a comprehensive assessment of user-level bias. We evaluate models, including ChatGPT 4o and Gemini 1.5 Flash, on music and movie recommendations. FairEval's fairness metric, PAFS, achieves scores up to 0.9969 for ChatGPT 4o and 0.9997 for Gemini 1.5 Flash, with disparities reaching 34.79 percent. These results highlight the importance of robustness in prompt sensitivity and support more inclusive recommendation systems.
- Abstract(参考訳): 近年のLarge Language Models (LLMs) の進歩によりレコメンダシステム (RecLLMs) への応用が可能になったが、人口統計学と心理学的ユーザー次元の公平性に関する懸念は残る。
LLMに基づく推薦における公平性を体系的に評価する新しい評価フレームワークであるFairEvalを紹介する。
FairEvalは性格特性を、性別、人種、年齢を含む8つのセンシティブな人口特性と統合し、ユーザーレベルの偏見を総合的に評価する。
音楽や映画のレコメンデーションに基づいてChatGPT 4oやGemini 1.5 Flashなどのモデルを評価する。
FairEvalの公正度測定値PAFSは、ChatGPT 4oで0.9969、Gemini 1.5 Flashで0.9997、格差は34.79パーセントに達する。
これらの結果は、迅速な感度向上とより包括的なレコメンデーションシステムのサポートにおけるロバストネスの重要性を強調している。
関連論文リスト
- CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。
CompassJudger-1は、優れた汎用性を示す汎用LLMである。
textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文 参考訳(メタデータ) (2024-10-21T17:56:51Z) - CLAVE: An Adaptive Framework for Evaluating Values of LLM Generated Responses [34.77031649891843]
CLAVEは2つの補完的なLarge Language Model(LLM)を統合する新しいフレームワークである。
このデュアルモデルアプローチは、値タイプ当たり100個の人ラベルサンプルを使用して、任意の値システムでキャリブレーションを可能にする。
ValEvalは13k+(text,value,label)12+を多種多様なドメインで構成し、3つの主要なバリューシステムをカバーする包括的データセットである。
論文 参考訳(メタデータ) (2024-07-15T13:51:37Z) - LLMs instead of Human Judges? A Large Scale Empirical Study across 20 NLP Evaluation Tasks [106.09361690937618]
人間の判断の代わりにLPMを用いてNLPモデルを評価する傾向が高まっている。
JUDGE-BENCHは20個のNLPデータセットのコレクションで、人間のアノテーションで、幅広い評価された特性やデータの種類をカバーしています。
アノテーションを複製できるため、オープンウェイトモデルとプロプライエタリモデルの両方をカバーする11の現在のLCMを評価します。
論文 参考訳(メタデータ) (2024-06-26T14:56:13Z) - Unveiling Bias in Fairness Evaluations of Large Language Models: A
Critical Literature Review of Music and Movie Recommendation Systems [0.0]
生成的人工知能の台頭、特にLarge Language Models (LLMs) は、正確性とともに公正性を精査する衝動を強めている。
近年,レコメンデーションなどの領域におけるLCMの公平性評価が研究されている。
しかし、現在の公平性評価フレームワークがパーソナライズに寄与する程度は未定である。
論文 参考訳(メタデータ) (2024-01-08T17:57:29Z) - Prometheus: Inducing Fine-grained Evaluation Capability in Language
Models [66.12432440863816]
我々は,GPT-4の評価能力に匹敵する,完全にオープンソースなLarge Language Model (LLM) であるPrometheusを提案する。
プロメテウスは45種類の楽譜を用いた評価において、Pearsonの0.897の相関を人間の評価値と比較した。
Prometheusは2つの人間の選好ベンチマークで最も精度が高い。
論文 参考訳(メタデータ) (2023-10-12T16:50:08Z) - Split and Merge: Aligning Position Biases in LLM-based Evaluators [22.265542509143756]
PortIAは、人間の比較戦略を模倣して位置バイアスを校正するアライメントベースのシステムである。
その結果, Portia はテスト対象のモデルと比較形態の整合性を著しく向上させることがわかった。
GPT-4モデルにおける位置バイアスの約80%を修正し、一貫性を98%まで高める。
論文 参考訳(メタデータ) (2023-09-29T14:38:58Z) - A Survey on Fairness-aware Recommender Systems [59.23208133653637]
本稿では,様々なレコメンデーションシナリオにおいてフェアネスの概念を提示し,現在の進歩を包括的に分類し,レコメンデーションシステムのさまざまな段階におけるフェアネスを促進するための典型的な手法を紹介する。
次に、フェアネスを意識したレコメンデーションシステムが実業界における産業応用に与える影響について検討する。
論文 参考訳(メタデータ) (2023-06-01T07:08:22Z) - UP5: Unbiased Foundation Model for Fairness-aware Recommendation [45.47673627667594]
大規模言語モデルが必然的に社会的なステレオタイプを永続させ、不公平なレコメンデーションをもたらすのではないかという懸念が高まっている。
本稿は,性別や年齢などのセンシティブな特徴に公正であるように,レコメンデーションシステムを必要とする,LDMベースの推薦に対するユーザ側の公正性に焦点を当てる。
フェアネスを意識したLLMレコメンデーションのための新しいCFP法をUnbiased Foundation mOdels(UFO)に導入する。
論文 参考訳(メタデータ) (2023-05-20T04:32:59Z) - Is ChatGPT Fair for Recommendation? Evaluating Fairness in Large
Language Model Recommendation [52.62492168507781]
LLM(FaiRLLM)を用いたFairness of Recommendationと呼ばれる新しいベンチマークを提案する。
このベンチマークは、慎重に作成されたメトリクスと、8つの機密属性を考慮に入れたデータセットで構成されている。
FaiRLLMベンチマークを用いて、ChatGPTの評価を行い、レコメンデーションを生成する際には、いくつかの機密属性に対して不公平であることがわかった。
論文 参考訳(メタデータ) (2023-05-12T16:54:36Z) - Balancing Accuracy and Fairness for Interactive Recommendation with
Reinforcement Learning [68.25805655688876]
推薦者の公正さは、おそらく伝統的な推薦者によって引き起こされる偏見と差別によって、注目を集めている。
IRSにおける精度と公平性の長期的バランスを動的に維持するための強化学習ベースのフレームワークであるFairRecを提案する。
大規模な実験は、FairRecが優れたレコメンデーション品質を維持しながら、公正性を改善することを実証する。
論文 参考訳(メタデータ) (2021-06-25T02:02:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。