論文の概要: A Normative Framework for Benchmarking Consumer Fairness in Large Language Model Recommender System
- arxiv url: http://arxiv.org/abs/2405.02219v2
- Date: Wed, 11 Sep 2024 07:27:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-12 21:17:34.436445
- Title: A Normative Framework for Benchmarking Consumer Fairness in Large Language Model Recommender System
- Title(参考訳): 大規模言語モデルレコメンダシステムにおける消費者公正度ベンチマークのための規範的フレームワーク
- Authors: Yashar Deldjoo, Fatemeh Nazary,
- Abstract要約: 本稿では,LCMを利用したリコメンデータシステムにおいて,消費者の公正性をベンチマークするための規範的フレームワークを提案する。
このギャップは公平性に関する任意の結論につながる可能性があると我々は主張する。
MovieLensデータセットの消費者の公正性に関する実験は、年齢ベースの推奨において公平さの偏りを明らかにしている。
- 参考スコア(独自算出の注目度): 9.470545149911072
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid adoption of large language models (LLMs) in recommender systems (RS) presents new challenges in understanding and evaluating their biases, which can result in unfairness or the amplification of stereotypes. Traditional fairness evaluations in RS primarily focus on collaborative filtering (CF) settings, which may not fully capture the complexities of LLMs, as these models often inherit biases from large, unregulated data. This paper proposes a normative framework to benchmark consumer fairness in LLM-powered recommender systems (RecLLMs). We critically examine how fairness norms in classical RS fall short in addressing the challenges posed by LLMs. We argue that this gap can lead to arbitrary conclusions about fairness, and we propose a more structured, formal approach to evaluate fairness in such systems. Our experiments on the MovieLens dataset on consumer fairness, using in-context learning (zero-shot vs. few-shot) reveal fairness deviations in age-based recommendations, particularly when additional contextual examples are introduced (ICL-2). Statistical significance tests confirm that these deviations are not random, highlighting the need for robust evaluation methods. While this work offers a preliminary discussion on a proposed normative framework, our hope is that it could provide a formal, principled approach for auditing and mitigating bias in RecLLMs. The code and dataset used for this work will be shared at "gihub-anonymized".
- Abstract(参考訳): 推薦システム(RS)における大規模言語モデル(LLM)の急速な採用は、そのバイアスを理解し評価する上で新たな課題を示し、それによってステレオタイプが不公平あるいは増幅される可能性がある。
RSの伝統的な公正度評価は主に協調フィルタリング(CF)の設定に焦点を当てており、これはLLMの複雑さを完全に捉えていない可能性がある。
本稿では,LLMを利用したレコメンデータシステム(RecLLMs)における消費者の公正度を評価するための規範的フレームワークを提案する。
古典的RSの公平性規範がLLMの課題にどう対処するかを批判的に検討する。
このギャップは公平性に関する任意の結論をもたらす可能性があり、そのようなシステムにおいて公平性を評価するためのより構造化された形式的なアプローチを提案する。
消費者の公正度に関するMovieLensデータセットに関する実験では、文脈内学習(ゼロショット対少数ショット)を用いて、特に追加の文脈例が導入された場合(ICL-2)、年齢ベースの推薦における公平さの偏りを明らかにした。
統計的に重要なテストでは、これらの偏差はランダムではなく、ロバストな評価方法の必要性を強調している。
この研究は、提案された規範的フレームワークに関する予備的な議論を提供する一方で、RecLLMの監査とバイアス軽減のための形式的で原則化されたアプローチを提供することを期待しています。
この作業で使用されるコードとデータセットは、"gihub-anonymized"で共有される。
関連論文リスト
- Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge [84.34545223897578]
多くの領域で優れているにもかかわらず、潜在的な問題は未解決のままであり、その信頼性と実用性の範囲を損なう。
提案手法は, LLM-as-a-Judgeにおける各種類のバイアスを定量化し, 解析する自動バイアス定量化フレームワークである。
当社の作業は、これらの問題に対処するステークホルダの必要性を強調し、LLM-as-a-Judgeアプリケーションで注意を喚起します。
論文 参考訳(メタデータ) (2024-10-03T17:53:30Z) - Challenging Fairness: A Comprehensive Exploration of Bias in LLM-Based Recommendations [3.5297361401370044]
大言語モデル(LLM)ベースのレコメンデーションシステムは、従来のシステムよりも包括的なレコメンデーションを提供する。
これらのシステムは、しばしばバイアスを示し、主流のコンテンツを好む一方で、歪んだトレーニングデータのために非伝統的な選択肢を疎外する。
本研究では,LLMに基づくレコメンデーションシステムとバイアスの関係について検討した。
論文 参考訳(メタデータ) (2024-09-17T01:37:57Z) - Editable Fairness: Fine-Grained Bias Mitigation in Language Models [52.66450426729818]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - An Actionable Framework for Assessing Bias and Fairness in Large Language Model Use Cases [0.0]
本稿では,大規模言語モデルにおけるバイアスと公平性リスクを評価するための実践者のための技術ガイドを提供する。
この作業の主な貢献は、特定のLLMユースケースで使用するメトリクスを決定するための決定フレームワークである。
論文 参考訳(メタデータ) (2024-07-15T16:04:44Z) - Inducing Group Fairness in LLM-Based Decisions [12.368678951470162]
Prompting Large Language Models (LLMs) におけるグループフェアネスは、よく研究されている問題である。
我々は、プロンプトベースの分類器が不公平な判断につながる可能性があることを示す。
いくつかの修復手法を導入し、公平さとパフォーマンスのトレードオフをベンチマークします。
論文 参考訳(メタデータ) (2024-06-24T15:45:20Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Understanding Biases in ChatGPT-based Recommender Systems: Provider Fairness, Temporal Stability, and Recency [9.882829614199453]
本稿では,ChatGPTに基づく推薦システムにおけるバイアスについて考察し,提供者フェアネス(イテム側フェアネス)に着目した。
最初の実験では、トップK推薦の精度と公平性について、7つの異なるプロンプトシナリオを評価した。
フェアネスを「フェアレコメンデーターとしての行動」のようなシステムの役割に組み込むことは、プロンプト内のフェアネスディレクティブよりも効果的であることが証明された。
論文 参考訳(メタデータ) (2024-01-19T08:09:20Z) - Marginal Debiased Network for Fair Visual Recognition [59.05212866862219]
本稿では,デバイアス表現を学習するための新しい限界脱バイアスネットワーク(MDN)を提案する。
我々のMDNは、表現不足のサンプルに対して顕著な性能を達成できる。
論文 参考訳(メタデータ) (2024-01-04T08:57:09Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - Is ChatGPT Fair for Recommendation? Evaluating Fairness in Large
Language Model Recommendation [52.62492168507781]
LLM(FaiRLLM)を用いたFairness of Recommendationと呼ばれる新しいベンチマークを提案する。
このベンチマークは、慎重に作成されたメトリクスと、8つの機密属性を考慮に入れたデータセットで構成されている。
FaiRLLMベンチマークを用いて、ChatGPTの評価を行い、レコメンデーションを生成する際には、いくつかの機密属性に対して不公平であることがわかった。
論文 参考訳(メタデータ) (2023-05-12T16:54:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。