論文の概要: A Normative Framework for Benchmarking Consumer Fairness in Large Language Model Recommender System
- arxiv url: http://arxiv.org/abs/2405.02219v2
- Date: Wed, 11 Sep 2024 07:27:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-12 21:17:34.436445
- Title: A Normative Framework for Benchmarking Consumer Fairness in Large Language Model Recommender System
- Title(参考訳): 大規模言語モデルレコメンダシステムにおける消費者公正度ベンチマークのための規範的フレームワーク
- Authors: Yashar Deldjoo, Fatemeh Nazary,
- Abstract要約: 本稿では,LCMを利用したリコメンデータシステムにおいて,消費者の公正性をベンチマークするための規範的フレームワークを提案する。
このギャップは公平性に関する任意の結論につながる可能性があると我々は主張する。
MovieLensデータセットの消費者の公正性に関する実験は、年齢ベースの推奨において公平さの偏りを明らかにしている。
- 参考スコア(独自算出の注目度): 9.470545149911072
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid adoption of large language models (LLMs) in recommender systems (RS) presents new challenges in understanding and evaluating their biases, which can result in unfairness or the amplification of stereotypes. Traditional fairness evaluations in RS primarily focus on collaborative filtering (CF) settings, which may not fully capture the complexities of LLMs, as these models often inherit biases from large, unregulated data. This paper proposes a normative framework to benchmark consumer fairness in LLM-powered recommender systems (RecLLMs). We critically examine how fairness norms in classical RS fall short in addressing the challenges posed by LLMs. We argue that this gap can lead to arbitrary conclusions about fairness, and we propose a more structured, formal approach to evaluate fairness in such systems. Our experiments on the MovieLens dataset on consumer fairness, using in-context learning (zero-shot vs. few-shot) reveal fairness deviations in age-based recommendations, particularly when additional contextual examples are introduced (ICL-2). Statistical significance tests confirm that these deviations are not random, highlighting the need for robust evaluation methods. While this work offers a preliminary discussion on a proposed normative framework, our hope is that it could provide a formal, principled approach for auditing and mitigating bias in RecLLMs. The code and dataset used for this work will be shared at "gihub-anonymized".
- Abstract(参考訳): 推薦システム(RS)における大規模言語モデル(LLM)の急速な採用は、そのバイアスを理解し評価する上で新たな課題を示し、それによってステレオタイプが不公平あるいは増幅される可能性がある。
RSの伝統的な公正度評価は主に協調フィルタリング(CF)の設定に焦点を当てており、これはLLMの複雑さを完全に捉えていない可能性がある。
本稿では,LLMを利用したレコメンデータシステム(RecLLMs)における消費者の公正度を評価するための規範的フレームワークを提案する。
古典的RSの公平性規範がLLMの課題にどう対処するかを批判的に検討する。
このギャップは公平性に関する任意の結論をもたらす可能性があり、そのようなシステムにおいて公平性を評価するためのより構造化された形式的なアプローチを提案する。
消費者の公正度に関するMovieLensデータセットに関する実験では、文脈内学習(ゼロショット対少数ショット)を用いて、特に追加の文脈例が導入された場合(ICL-2)、年齢ベースの推薦における公平さの偏りを明らかにした。
統計的に重要なテストでは、これらの偏差はランダムではなく、ロバストな評価方法の必要性を強調している。
この研究は、提案された規範的フレームワークに関する予備的な議論を提供する一方で、RecLLMの監査とバイアス軽減のための形式的で原則化されたアプローチを提供することを期待しています。
この作業で使用されるコードとデータセットは、"gihub-anonymized"で共有される。
関連論文リスト
- An Actionable Framework for Assessing Bias and Fairness in Large Language Model Use Cases [0.0]
本稿では,大規模言語モデルにおけるバイアスと公平性リスクを評価するための実践者のための技術ガイドを提供する。
この作業の主な貢献は、特定のLLMユースケースで使用するメトリクスを決定するための決定フレームワークである。
論文 参考訳(メタデータ) (2024-07-15T16:04:44Z) - Inducing Group Fairness in LLM-Based Decisions [12.368678951470162]
Prompting Large Language Models (LLMs) におけるグループフェアネスは、よく研究されている問題である。
我々は、プロンプトベースの分類器が不公平な判断につながる可能性があることを示す。
いくつかの修復手法を導入し、公平さとパフォーマンスのトレードオフをベンチマークします。
論文 参考訳(メタデータ) (2024-06-24T15:45:20Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Understanding Biases in ChatGPT-based Recommender Systems: Provider Fairness, Temporal Stability, and Recency [9.882829614199453]
本稿では,ChatGPTに基づく推薦システムにおけるバイアスについて考察し,提供者フェアネス(イテム側フェアネス)に着目した。
最初の実験では、トップK推薦の精度と公平性について、7つの異なるプロンプトシナリオを評価した。
フェアネスを「フェアレコメンデーターとしての行動」のようなシステムの役割に組み込むことは、プロンプト内のフェアネスディレクティブよりも効果的であることが証明された。
論文 参考訳(メタデータ) (2024-01-19T08:09:20Z) - Marginal Debiased Network for Fair Visual Recognition [65.64172835624206]
本稿では,デバイアス表現を学習するための新しい限界脱バイアスネットワーク(MDN)を提案する。
より具体的には、マージンペナルティという概念をフェアネス問題に導入することにより、マージンのソフトマックスロス(MSL)を設計する。
我々のMDNは、表現不足のサンプルに対して顕著な性能を達成でき、従来の手法と比較して優れたデバイアス結果を得ることができる。
論文 参考訳(メタデータ) (2024-01-04T08:57:09Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - Parametric Fairness with Statistical Guarantees [0.46040036610482665]
我々は、予測に分布特性を組み込むためのデモグラフィックパリティの概念を拡張し、専門家の知識を公正なソリューションで利用できるようにする。
我々は、賃金の実践的な例を通して、この新しい指標の使用を説明し、実践的な課題に効率的に対処するパラメトリック手法を開発する。
論文 参考訳(メタデータ) (2023-10-31T14:52:39Z) - Is ChatGPT Fair for Recommendation? Evaluating Fairness in Large
Language Model Recommendation [52.62492168507781]
LLM(FaiRLLM)を用いたFairness of Recommendationと呼ばれる新しいベンチマークを提案する。
このベンチマークは、慎重に作成されたメトリクスと、8つの機密属性を考慮に入れたデータセットで構成されている。
FaiRLLMベンチマークを用いて、ChatGPTの評価を行い、レコメンデーションを生成する際には、いくつかの機密属性に対して不公平であることがわかった。
論文 参考訳(メタデータ) (2023-05-12T16:54:36Z) - Fairness Reprogramming [42.65700878967251]
モデル再プログラミング手法を取り入れたFairRe Programと呼ばれる新しい汎用フェアネス学習パラダイムを提案する。
具体的には、FairRe Programはモデルを変更することができず、フェアネストリガと呼ばれる一連の摂動を入力に追加するケースについて検討している。
我々は,固定MLモデルの出力予測において,公平性トリガが効果的に人口統計バイアスを曖昧にすることができることを理論的および実証的に示す。
論文 参考訳(メタデータ) (2022-09-21T09:37:00Z) - Evaluate Confidence Instead of Perplexity for Zero-shot Commonsense
Reasoning [85.1541170468617]
本稿では,コモンセンス推論の性質を再考し,新しいコモンセンス推論尺度であるNon-Replacement Confidence(NRC)を提案する。
提案手法は,2つのコモンセンス推論ベンチマークデータセットと,さらに7つのコモンセンス質問応答データセットに対してゼロショット性能を向上する。
論文 参考訳(メタデータ) (2022-08-23T14:42:14Z) - Unsupervised Learning of Debiased Representations with Pseudo-Attributes [85.5691102676175]
教師なし方式で,単純かつ効果的な脱バイアス手法を提案する。
特徴埋め込み空間上でクラスタリングを行い、クラスタリング結果を利用して疑似属性を識別する。
次に,非偏り表現を学習するために,クラスタベースの新しい重み付け手法を用いる。
論文 参考訳(メタデータ) (2021-08-06T05:20:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。