論文の概要: Is ChatGPT Fair for Recommendation? Evaluating Fairness in Large
Language Model Recommendation
- arxiv url: http://arxiv.org/abs/2305.07609v3
- Date: Tue, 17 Oct 2023 13:29:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 22:02:49.072114
- Title: Is ChatGPT Fair for Recommendation? Evaluating Fairness in Large
Language Model Recommendation
- Title(参考訳): ChatGPTは推奨に値するか?
大規模言語モデル推薦における公平性の評価
- Authors: Jizhi Zhang, Keqin Bao, Yang Zhang, Wenjie Wang, Fuli Feng, Xiangnan
He
- Abstract要約: LLM(FaiRLLM)を用いたFairness of Recommendationと呼ばれる新しいベンチマークを提案する。
このベンチマークは、慎重に作成されたメトリクスと、8つの機密属性を考慮に入れたデータセットで構成されている。
FaiRLLMベンチマークを用いて、ChatGPTの評価を行い、レコメンデーションを生成する際には、いくつかの機密属性に対して不公平であることがわかった。
- 参考スコア(独自算出の注目度): 52.62492168507781
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The remarkable achievements of Large Language Models (LLMs) have led to the
emergence of a novel recommendation paradigm -- Recommendation via LLM
(RecLLM). Nevertheless, it is important to note that LLMs may contain social
prejudices, and therefore, the fairness of recommendations made by RecLLM
requires further investigation. To avoid the potential risks of RecLLM, it is
imperative to evaluate the fairness of RecLLM with respect to various sensitive
attributes on the user side. Due to the differences between the RecLLM paradigm
and the traditional recommendation paradigm, it is problematic to directly use
the fairness benchmark of traditional recommendation. To address the dilemma,
we propose a novel benchmark called Fairness of Recommendation via LLM
(FaiRLLM). This benchmark comprises carefully crafted metrics and a dataset
that accounts for eight sensitive attributes1 in two recommendation scenarios:
music and movies. By utilizing our FaiRLLM benchmark, we conducted an
evaluation of ChatGPT and discovered that it still exhibits unfairness to some
sensitive attributes when generating recommendations. Our code and dataset can
be found at https://github.com/jizhi-zhang/FaiRLLM.
- Abstract(参考訳): LLM(Large Language Models)の顕著な成果は、新しいレコメンデーションパラダイム -- LLM (RecLLM)によるレコメンデーション -- の出現につながった。
それにもかかわらず、LLMは社会的偏見を含む可能性があるため、RecLLMによる勧告の公正性はさらなる調査が必要であることに注意する必要がある。
RecLLMの潜在的なリスクを避けるため、ユーザ側の様々な機密属性に対して、RecLLMの公平性を評価することが不可欠である。
RecLLMパラダイムと従来のレコメンデーションパラダイムの違いから、従来のレコメンデーションの公平性ベンチマークを直接使用するのは問題である。
このジレンマに対処するために,LLM (FaiRLLM) を用いたFairness of Recommendationと呼ばれる新しいベンチマークを提案する。
このベンチマークは、慎重に作成されたメトリクスと、音楽と映画という2つの推奨シナリオで8つのセンシティブな属性1を占めるデータセットで構成されている。
FaiRLLMベンチマークを用いて、ChatGPTの評価を行い、レコメンデーションを生成する際には、いくつかの機密属性に対して不公平であることがわかった。
コードとデータセットはhttps://github.com/jizhi-zhang/FaiRLLM.comで確認できます。
関連論文リスト
- Learning Recommender Systems with Soft Target: A Decoupled Perspective [49.83787742587449]
そこで本研究では,ソフトラベルを活用することで,目的を2つの側面として捉えるために,分離されたソフトラベル最適化フレームワークを提案する。
本稿では,ラベル伝搬アルゴリズムをモデル化したソフトラベル生成アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-09T04:20:15Z) - LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints [86.59857711385833]
実世界のマルチ制約命令に従うLLMの能力を評価するために設計された最初のベンチマークであるRealInstructを紹介する。
オープンソースモデルとプロプライエタリモデルのパフォーマンスギャップを解決するため,Decompose, Critique and Refine(DeCRIM)自己補正パイプラインを提案する。
この結果から,DeCRIMはフィードバックが弱い場合でも,RealInstructでは7.3%,IFEvalでは8.0%,Mistralでは7.3%向上した。
論文 参考訳(メタデータ) (2024-10-09T01:25:10Z) - Are LLM-based Recommenders Already the Best? Simple Scaled Cross-entropy Unleashes the Potential of Traditional Sequential Recommenders [31.116716790604116]
大規模言語モデル(LLM)はレコメンデーションコミュニティで注目を集めている。
一部の研究では、LLMが完全なソフトマックスでクロスエントロピー(CE)の損失によって微調整された場合、シーケンシャルなレコメンデーションで最先端のパフォーマンスを達成することが観察されている。
本研究は,クロスエントロピー損失の優越性を理論的に正当化するものである。
論文 参考訳(メタデータ) (2024-08-26T12:52:02Z) - On Softmax Direct Preference Optimization for Recommendation [50.896117978746]
そこで我々は,LMをベースとした推奨項目の識別を支援するために,ランキング情報をLMに挿入するソフトマックスDPO(S-DPO)を提案する。
具体的には、ユーザの嗜好データに複数の負を組み込んで、LMベースのレコメンデータに適したDPO損失の代替版を考案する。
論文 参考訳(メタデータ) (2024-06-13T15:16:11Z) - A Normative Framework for Benchmarking Consumer Fairness in Large Language Model Recommender System [9.470545149911072]
本稿では,LCMを利用したリコメンデータシステムにおいて,消費者の公正性をベンチマークするための規範的フレームワークを提案する。
このギャップは公平性に関する任意の結論につながる可能性があると我々は主張する。
MovieLensデータセットの消費者の公正性に関する実験は、年齢ベースの推奨において公平さの偏りを明らかにしている。
論文 参考訳(メタデータ) (2024-05-03T16:25:27Z) - Federated Recommendation via Hybrid Retrieval Augmented Generation [16.228589300933262]
Federated Recommendation (FR)は、プライバシ保護のレコメンデーションを可能にする。
推薦者としての大きな言語モデル(LLM)は、様々なレコメンデーションシナリオで有効であることが証明されている。
GPT-FedRecは,ChatGPTと新しいハイブリッド検索拡張生成(RAG)機構を利用した,連合型レコメンデーションフレームワークである。
論文 参考訳(メタデータ) (2024-03-07T06:38:41Z) - LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。
我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。
ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文 参考訳(メタデータ) (2023-08-23T16:32:54Z) - UP5: Unbiased Foundation Model for Fairness-aware Recommendation [45.47673627667594]
大規模言語モデルが必然的に社会的なステレオタイプを永続させ、不公平なレコメンデーションをもたらすのではないかという懸念が高まっている。
本稿は,性別や年齢などのセンシティブな特徴に公正であるように,レコメンデーションシステムを必要とする,LDMベースの推薦に対するユーザ側の公正性に焦点を当てる。
フェアネスを意識したLLMレコメンデーションのための新しいCFP法をUnbiased Foundation mOdels(UFO)に導入する。
論文 参考訳(メタデータ) (2023-05-20T04:32:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。