論文の概要: Understanding Biases in ChatGPT-based Recommender Systems: Provider Fairness, Temporal Stability, and Recency
- arxiv url: http://arxiv.org/abs/2401.10545v3
- Date: Thu, 4 Jul 2024 12:59:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 00:13:02.079758
- Title: Understanding Biases in ChatGPT-based Recommender Systems: Provider Fairness, Temporal Stability, and Recency
- Title(参考訳): ChatGPTベースのレコメンダシステムにおけるバイアスの理解:プロバイダフェアネス、時間安定性、信頼性
- Authors: Yashar Deldjoo,
- Abstract要約: 本稿では,ChatGPTに基づく推薦システムにおけるバイアスについて考察し,提供者フェアネス(イテム側フェアネス)に着目した。
最初の実験では、トップK推薦の精度と公平性について、7つの異なるプロンプトシナリオを評価した。
フェアネスを「フェアレコメンデーターとしての行動」のようなシステムの役割に組み込むことは、プロンプト内のフェアネスディレクティブよりも効果的であることが証明された。
- 参考スコア(独自算出の注目度): 9.882829614199453
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper explores the biases in ChatGPT-based recommender systems, focusing on provider fairness (item-side fairness). Through extensive experiments and over a thousand API calls, we investigate the impact of prompt design strategies-including structure, system role, and intent-on evaluation metrics such as provider fairness, catalog coverage, temporal stability, and recency. The first experiment examines these strategies in classical top-K recommendations, while the second evaluates sequential in-context learning (ICL). In the first experiment, we assess seven distinct prompt scenarios on top-K recommendation accuracy and fairness. Accuracy-oriented prompts, like Simple and Chain-of-Thought (COT), outperform diversification prompts, which, despite enhancing temporal freshness, reduce accuracy by up to 50%. Embedding fairness into system roles, such as "act as a fair recommender," proved more effective than fairness directives within prompts. Diversification prompts led to recommending newer movies, offering broader genre distribution compared to traditional collaborative filtering (CF) models. The second experiment explores sequential ICL, comparing zero-shot and few-shot ICL. Results indicate that including user demographic information in prompts affects model biases and stereotypes. However, ICL did not consistently improve item fairness and catalog coverage over zero-shot learning. Zero-shot learning achieved higher NDCG and coverage, while ICL-2 showed slight improvements in hit rate (HR) when age-group context was included. Our study provides insights into biases of RecLLMs, particularly in provider fairness and catalog coverage. By examining prompt design, learning strategies, and system roles, we highlight the potential and challenges of integrating LLMs into recommendation systems. Further details can be found at https://github.com/yasdel/Benchmark_RecLLM_Fairness.
- Abstract(参考訳): 本稿では,ChatGPTに基づく推薦システムにおけるバイアスについて考察し,提供者フェアネス(イテム側フェアネス)に着目した。
広範な実験と1000以上のAPI呼び出しを通じて、提供者フェアネス、カタログのカバレッジ、時間的安定性、リレーシシデンスなどの設計戦略、構造、システムの役割、インテントオン評価指標を含む、迅速な設計戦略の影響を調査する。
第1実験では、これらの戦略を古典的トップKレコメンデーションで検証し、第2実験では、逐次インコンテキスト学習(ICL)を評価する。
最初の実験では、トップK推薦の精度と公平性について、7つの異なるプロンプトシナリオを評価した。
Simple and Chain-of-Thought (COT)のような正確性指向のプロンプトは、時間的鮮度を向上しているにもかかわらず、精度を最大50%低下させる多様化プロンプトより優れている。
フェアネスを「フェアレコメンデーターとしての行動」のようなシステムの役割に組み込むことは、プロンプト内のフェアネスディレクティブよりも効果的であることが証明された。
多様化の促進により新しい映画が推奨され、従来のコラボレーティブ・フィルタリング(CF)モデルよりも幅広いジャンルの配給が提供された。
第2の実験では、ゼロショットと少数ショットのICLを比較してシーケンシャルICLを探索している。
その結果,プロンプトにユーザ人口統計情報を含めると,モデルバイアスやステレオタイプに影響を及ぼすことがわかった。
しかし、ICLはゼロショット学習よりもアイテムフェアネスとカタログカバレッジを一貫して改善しなかった。
ゼロショット学習はNDCGとカバレッジを向上し, ICL-2は年齢群コンテキストを含む場合のヒット率(HR)をわずかに改善した。
本稿では,RecLLMsのバイアス,特にプロバイダフェアネスとカタログカバレッジについて考察する。
迅速な設計,学習戦略,システムの役割を検討することで,LLMをレコメンデーションシステムに統合する可能性と課題を明らかにする。
詳細はhttps://github.com/yasdel/Benchmark_RecLLM_Fairnessで確認できる。
関連論文リスト
- A Thorough Performance Benchmarking on Lightweight Embedding-based Recommender Systems [67.52782366565658]
State-of-the-art recommender system (RS) は、埋め込みベクトルによって符号化される分類的特徴に依存し、結果として非常に大きな埋め込みテーブルとなる。
軽量埋め込み型RSの繁栄にもかかわらず、評価プロトコルには幅広い多様性が見られる。
本研究では, LERSの性能, 効率, クロスタスク転送性について, 徹底的なベンチマークによる検討を行った。
論文 参考訳(メタデータ) (2024-06-25T07:45:00Z) - Can Many-Shot In-Context Learning Help Long-Context LLM Judges? See More, Judge Better! [14.906150451947443]
我々は,GPT-4o-as-a-Judgeを単一回答グレーディングで支援するために,マルチショットインコンテキストプロンプトの2つのバージョンを提案し,検討する。
設計したプロンプトに基づいて,文脈内サンプルの数が判定結果の一貫性と品質に与える影響について検討する。
GPT-4o-as-a-Judgeの相互比較に隠されたシンボルバイアスを明らかにし、その軽減のための単純かつ効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-06-17T15:11:58Z) - RAGSys: Item-Cold-Start Recommender as RAG System [0.0]
大規模言語モデル(LLM)は現実世界のアプリケーションにとって大きな約束を持っているが、それらの一般的な知識はドメイン固有のニーズに欠けることが多い。
In-Context Learning (ICL)は、Retrieval-Augmented Generation (RAG)を活用して、数ショットの学習タスクに関連したデモを提供する代替手段を提供する。
この文脈でのICL検索は、アイテムコールドスタートレコメンデータシステムに似ており、発見の優先順位付けと厳密な関連性よりも情報の獲得を最大化している。
論文 参考訳(メタデータ) (2024-05-27T18:40:49Z) - Take Care of Your Prompt Bias! Investigating and Mitigating Prompt Bias in Factual Knowledge Extraction [56.17020601803071]
近年の研究では、事前学習言語モデル(PLM)が、事実知識抽出において「急激なバイアス」に悩まされていることが示されている。
本稿では,突発バイアスを徹底的に調査し緩和することにより,既存のベンチマークの信頼性を向上させることを目的とする。
論文 参考訳(メタデータ) (2024-03-15T02:04:35Z) - Learning Fair Ranking Policies via Differentiable Optimization of
Ordered Weighted Averages [55.04219793298687]
本稿では,学習からランクへの学習ループに,効率よく解ける公正ランキングモデルを組み込む方法について述べる。
特に,本論文は,OWA目標の制約された最適化を通じてバックプロパゲーションを行う方法を示す最初のものである。
論文 参考訳(メタデータ) (2024-02-07T20:53:53Z) - Is ChatGPT Fair for Recommendation? Evaluating Fairness in Large
Language Model Recommendation [52.62492168507781]
LLM(FaiRLLM)を用いたFairness of Recommendationと呼ばれる新しいベンチマークを提案する。
このベンチマークは、慎重に作成されたメトリクスと、8つの機密属性を考慮に入れたデータセットで構成されている。
FaiRLLMベンチマークを用いて、ChatGPTの評価を行い、レコメンデーションを生成する際には、いくつかの機密属性に対して不公平であることがわかった。
論文 参考訳(メタデータ) (2023-05-12T16:54:36Z) - FairRec: Fairness Testing for Deep Recommender Systems [21.420524191767335]
本稿では,ディープラーニングに基づく推薦システムの公平性テストを支援する統一フレームワークを提案する。
また,新たな課題に取り組むために,検索に基づく新しい効率的なテスト手法を提案する。
論文 参考訳(メタデータ) (2023-04-14T09:49:55Z) - Comprehensive Fair Meta-learned Recommender System [39.04926584648665]
我々は、メタ学習モデルの公平性を確保するために、CLOVERという、総合的な公正なメタ学習フレームワークを提案する。
我々のフレームワークは、異なるメタ学習レコメンデータシステムに適用可能な、汎用的なトレーニングパラダイムを提供する。
論文 参考訳(メタデータ) (2022-06-09T22:48:35Z) - Balancing Accuracy and Fairness for Interactive Recommendation with
Reinforcement Learning [68.25805655688876]
推薦者の公正さは、おそらく伝統的な推薦者によって引き起こされる偏見と差別によって、注目を集めている。
IRSにおける精度と公平性の長期的バランスを動的に維持するための強化学習ベースのフレームワークであるFairRecを提案する。
大規模な実験は、FairRecが優れたレコメンデーション品質を維持しながら、公正性を改善することを実証する。
論文 参考訳(メタデータ) (2021-06-25T02:02:51Z) - Contrastive Learning for Debiased Candidate Generation in Large-Scale
Recommender Systems [84.3996727203154]
コントラスト損失の一般的な選択は、逆確率重み付けによる露光バイアスの低減と等価であることを示す。
我々はCLRecをさらに改良し、マルチCLRecを提案する。
提案手法は,少なくとも4ヶ月のオンラインA/Bテストとオフライン分析が実施され,大幅に改善されている。
論文 参考訳(メタデータ) (2020-05-20T08:15:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。