論文の概要: Is ChatGPT Fair for Recommendation? Evaluating Fairness in Large
Language Model Recommendation
- arxiv url: http://arxiv.org/abs/2305.07609v3
- Date: Tue, 17 Oct 2023 13:29:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-10-18 22:02:49.072114
- Title: Is ChatGPT Fair for Recommendation? Evaluating Fairness in Large
Language Model Recommendation
- Title(参考訳): ChatGPTは推奨に値するか?
大規模言語モデル推薦における公平性の評価
- Authors: Jizhi Zhang, Keqin Bao, Yang Zhang, Wenjie Wang, Fuli Feng, Xiangnan
He
- Abstract要約: LLM(FaiRLLM)を用いたFairness of Recommendationと呼ばれる新しいベンチマークを提案する。
このベンチマークは、慎重に作成されたメトリクスと、8つの機密属性を考慮に入れたデータセットで構成されている。
FaiRLLMベンチマークを用いて、ChatGPTの評価を行い、レコメンデーションを生成する際には、いくつかの機密属性に対して不公平であることがわかった。
- 参考スコア(独自算出の注目度): 52.62492168507781
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The remarkable achievements of Large Language Models (LLMs) have led to the
emergence of a novel recommendation paradigm -- Recommendation via LLM
(RecLLM). Nevertheless, it is important to note that LLMs may contain social
prejudices, and therefore, the fairness of recommendations made by RecLLM
requires further investigation. To avoid the potential risks of RecLLM, it is
imperative to evaluate the fairness of RecLLM with respect to various sensitive
attributes on the user side. Due to the differences between the RecLLM paradigm
and the traditional recommendation paradigm, it is problematic to directly use
the fairness benchmark of traditional recommendation. To address the dilemma,
we propose a novel benchmark called Fairness of Recommendation via LLM
(FaiRLLM). This benchmark comprises carefully crafted metrics and a dataset
that accounts for eight sensitive attributes1 in two recommendation scenarios:
music and movies. By utilizing our FaiRLLM benchmark, we conducted an
evaluation of ChatGPT and discovered that it still exhibits unfairness to some
sensitive attributes when generating recommendations. Our code and dataset can
be found at https://github.com/jizhi-zhang/FaiRLLM.
- Abstract(参考訳): LLM(Large Language Models)の顕著な成果は、新しいレコメンデーションパラダイム -- LLM (RecLLM)によるレコメンデーション -- の出現につながった。
それにもかかわらず、LLMは社会的偏見を含む可能性があるため、RecLLMによる勧告の公正性はさらなる調査が必要であることに注意する必要がある。
RecLLMの潜在的なリスクを避けるため、ユーザ側の様々な機密属性に対して、RecLLMの公平性を評価することが不可欠である。
RecLLMパラダイムと従来のレコメンデーションパラダイムの違いから、従来のレコメンデーションの公平性ベンチマークを直接使用するのは問題である。
このジレンマに対処するために,LLM (FaiRLLM) を用いたFairness of Recommendationと呼ばれる新しいベンチマークを提案する。
このベンチマークは、慎重に作成されたメトリクスと、音楽と映画という2つの推奨シナリオで8つのセンシティブな属性1を占めるデータセットで構成されている。
FaiRLLMベンチマークを用いて、ChatGPTの評価を行い、レコメンデーションを生成する際には、いくつかの機密属性に対して不公平であることがわかった。
コードとデータセットはhttps://github.com/jizhi-zhang/FaiRLLM.comで確認できます。
関連論文リスト
- Do Reviews Matter for Recommendations in the Era of Large Language Models? [8.772803183525284]
大規模言語モデル(LLM)の出現に伴い、レコメンダシステムの展望は大きな変化を遂げている。
伝統的に、ユーザレビューはリコメンデーションの品質を高めるために、リッチでコンテキスト情報の重要な情報源として機能してきた。
本稿では, 深層学習手法とLLMアプローチを比較して, テキストレビューの進化的役割を体系的に検討する。
論文 参考訳(メタデータ) (2025-12-15T04:46:48Z) - Do LLM-judges Align with Human Relevance in Cranfield-style Recommender Evaluation? [40.49875426230813]
本稿では,Large Language Models (LLM) がスケーラビリティ問題に対処するために,信頼性の高い自動判断器として機能するかどうかを検討する。
ML-32M-ext Cranfieldスタイルの映画レコメンデーションコレクションを用いて,既存の評価手法の限界について検討する。
よりリッチな項目メタデータとより長いユーザ履歴を組み合わせることでアライメントが向上し,LLM-judgeは人間によるランキングと高い合意を得ることがわかった。
論文 参考訳(メタデータ) (2025-11-28T16:10:39Z) - Towards Comprehensible Recommendation with Large Language Model Fine-tuning [41.218487308635126]
本稿では,コラボレーティブ・パースペクティブ・フレームワーク(CURec)によるレコメンデーションシステムのための新しいコンテンツ理解手法を提案する。
Curecは、より包括的なレコメンデーションのために、協調的なコンテンツ機能を生成する。
公開ベンチマークの実験では、既存の方法よりもCURecの方が優れていることが示されている。
論文 参考訳(メタデータ) (2025-08-11T03:55:31Z) - $\ ext{R}^2\ ext{ec}$: Towards Large Recommender Models with Reasoning [50.291998724376654]
我々は,本質的な推論機能を備えた統合された大規模レコメンデータモデルであるnameを提案する。
RecPOは、単一のポリシー更新で推論とレコメンデーションの両方の機能を同時に最適化する、対応する強化学習フレームワークである。
さまざまなベースラインを持つ3つのデータセットの実験では、Hit@5で68.67%、NDCG@20で45.21%の相対的な改善が見られた。
論文 参考訳(メタデータ) (2025-05-22T17:55:43Z) - DeepRec: Towards a Deep Dive Into the Item Space with Large Language Model Based Recommendation [83.21140655248624]
大型言語モデル (LLM) はレコメンダシステム (RS) に導入された。
本稿では, LLM と TRM の自律的マルチターンインタラクションを実現する新しい RS である DeepRec を提案する。
公開データセットの実験では、DeepRecは従来のものとLLMベースのベースラインの両方で大幅にパフォーマンスが向上している。
論文 参考訳(メタデータ) (2025-05-22T15:49:38Z) - Utility-Focused LLM Annotation for Retrieval and Retrieval-Augmented Generation [96.18720164390699]
本稿では,大規模言語モデル (LLM) を用いた検索・検索・拡張生成システム (RAG) の訓練における文書ユーティリティのアノテートについて検討する。
以上の結果から,LLM生成アノテーションは,人間のアノテーションや下流QAメトリクスのみを訓練したモデルと比較して,ドメイン外検索性能の向上とRAG結果の改善を図っている。
論文 参考訳(メタデータ) (2025-04-07T16:05:52Z) - Learning Recommender Systems with Soft Target: A Decoupled Perspective [49.83787742587449]
そこで本研究では,ソフトラベルを活用することで,目的を2つの側面として捉えるために,分離されたソフトラベル最適化フレームワークを提案する。
本稿では,ラベル伝搬アルゴリズムをモデル化したソフトラベル生成アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-09T04:20:15Z) - LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints [86.59857711385833]
実世界のマルチ制約命令に従うLLMの能力を評価するために設計された最初のベンチマークであるRealInstructを紹介する。
オープンソースモデルとプロプライエタリモデルのパフォーマンスギャップを解決するため,Decompose, Critique and Refine(DeCRIM)自己補正パイプラインを提案する。
この結果から,DeCRIMはフィードバックが弱い場合でも,RealInstructでは7.3%,IFEvalでは8.0%,Mistralでは7.3%向上した。
論文 参考訳(メタデータ) (2024-10-09T01:25:10Z) - Are LLM-based Recommenders Already the Best? Simple Scaled Cross-entropy Unleashes the Potential of Traditional Sequential Recommenders [31.116716790604116]
大規模言語モデル(LLM)はレコメンデーションコミュニティで注目を集めている。
一部の研究では、LLMが完全なソフトマックスでクロスエントロピー(CE)の損失によって微調整された場合、シーケンシャルなレコメンデーションで最先端のパフォーマンスを達成することが観察されている。
本研究は,クロスエントロピー損失の優越性を理論的に正当化するものである。
論文 参考訳(メタデータ) (2024-08-26T12:52:02Z) - On Softmax Direct Preference Optimization for Recommendation [50.896117978746]
そこで我々は,LMをベースとした推奨項目の識別を支援するために,ランキング情報をLMに挿入するソフトマックスDPO(S-DPO)を提案する。
具体的には、ユーザの嗜好データに複数の負を組み込んで、LMベースのレコメンデータに適したDPO損失の代替版を考案する。
論文 参考訳(メタデータ) (2024-06-13T15:16:11Z) - A Normative Framework for Benchmarking Consumer Fairness in Large Language Model Recommender System [9.470545149911072]
本稿では,LCMを利用したリコメンデータシステムにおいて,消費者の公正性をベンチマークするための規範的フレームワークを提案する。
このギャップは公平性に関する任意の結論につながる可能性があると我々は主張する。
MovieLensデータセットの消費者の公正性に関する実験は、年齢ベースの推奨において公平さの偏りを明らかにしている。
論文 参考訳(メタデータ) (2024-05-03T16:25:27Z) - CFaiRLLM: Consumer Fairness Evaluation in Large-Language Model Recommender System [16.84754752395103]
本研究は,Large Language Model (LLM) ベースのレコメンデータシステムにおける公平性評価に関する過去の研究に批判的な立場を取る。
CFaiRLLMは、真の嗜好アライメントを組み込むだけでなく、交叉フェアネスを厳格に検証する拡張評価フレームワークである。
CFaiRLLMの有効性を検証するため,MovieLensとLastFMを用いた広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-03-08T20:44:59Z) - Federated Recommendation via Hybrid Retrieval Augmented Generation [16.228589300933262]
Federated Recommendation (FR)は、プライバシ保護のレコメンデーションを可能にする。
推薦者としての大きな言語モデル(LLM)は、様々なレコメンデーションシナリオで有効であることが証明されている。
GPT-FedRecは,ChatGPTと新しいハイブリッド検索拡張生成(RAG)機構を利用した,連合型レコメンデーションフレームワークである。
論文 参考訳(メタデータ) (2024-03-07T06:38:41Z) - LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。
我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。
ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文 参考訳(メタデータ) (2023-08-23T16:32:54Z) - UP5: Unbiased Foundation Model for Fairness-aware Recommendation [45.47673627667594]
大規模言語モデルが必然的に社会的なステレオタイプを永続させ、不公平なレコメンデーションをもたらすのではないかという懸念が高まっている。
本稿は,性別や年齢などのセンシティブな特徴に公正であるように,レコメンデーションシステムを必要とする,LDMベースの推薦に対するユーザ側の公正性に焦点を当てる。
フェアネスを意識したLLMレコメンデーションのための新しいCFP法をUnbiased Foundation mOdels(UFO)に導入する。
論文 参考訳(メタデータ) (2023-05-20T04:32:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。