Fugu-MT 論文翻訳(概要): A Normative Framework for Benchmarking Consumer Fairness in Large Language Model Recommender System

論文の概要: A Normative Framework for Benchmarking Consumer Fairness in Large Language Model Recommender System

arxiv url: http://arxiv.org/abs/2405.02219v2
Date: Wed, 11 Sep 2024 07:27:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-12 21:17:34.436445
Title: A Normative Framework for Benchmarking Consumer Fairness in Large Language Model Recommender System
Title（参考訳）: 大規模言語モデルレコメンダシステムにおける消費者公正度ベンチマークのための規範的フレームワーク
Authors: Yashar Deldjoo, Fatemeh Nazary,
Abstract要約: 本稿では,LCMを利用したリコメンデータシステムにおいて,消費者の公正性をベンチマークするための規範的フレームワークを提案する。このギャップは公平性に関する任意の結論につながる可能性があると我々は主張する。 MovieLensデータセットの消費者の公正性に関する実験は、年齢ベースの推奨において公平さの偏りを明らかにしている。
参考スコア（独自算出の注目度）: 9.470545149911072
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The rapid adoption of large language models (LLMs) in recommender systems (RS) presents new challenges in understanding and evaluating their biases, which can result in unfairness or the amplification of stereotypes. Traditional fairness evaluations in RS primarily focus on collaborative filtering (CF) settings, which may not fully capture the complexities of LLMs, as these models often inherit biases from large, unregulated data. This paper proposes a normative framework to benchmark consumer fairness in LLM-powered recommender systems (RecLLMs). We critically examine how fairness norms in classical RS fall short in addressing the challenges posed by LLMs. We argue that this gap can lead to arbitrary conclusions about fairness, and we propose a more structured, formal approach to evaluate fairness in such systems. Our experiments on the MovieLens dataset on consumer fairness, using in-context learning (zero-shot vs. few-shot) reveal fairness deviations in age-based recommendations, particularly when additional contextual examples are introduced (ICL-2). Statistical significance tests confirm that these deviations are not random, highlighting the need for robust evaluation methods. While this work offers a preliminary discussion on a proposed normative framework, our hope is that it could provide a formal, principled approach for auditing and mitigating bias in RecLLMs. The code and dataset used for this work will be shared at "gihub-anonymized".
Abstract（参考訳）: 推薦システム(RS)における大規模言語モデル(LLM)の急速な採用は、そのバイアスを理解し評価する上で新たな課題を示し、それによってステレオタイプが不公平あるいは増幅される可能性がある。 RSの伝統的な公正度評価は主に協調フィルタリング(CF)の設定に焦点を当てており、これはLLMの複雑さを完全に捉えていない可能性がある。本稿では,LLMを利用したレコメンデータシステム(RecLLMs)における消費者の公正度を評価するための規範的フレームワークを提案する。古典的RSの公平性規範がLLMの課題にどう対処するかを批判的に検討する。このギャップは公平性に関する任意の結論をもたらす可能性があり、そのようなシステムにおいて公平性を評価するためのより構造化された形式的なアプローチを提案する。消費者の公正度に関するMovieLensデータセットに関する実験では、文脈内学習(ゼロショット対少数ショット)を用いて、特に追加の文脈例が導入された場合(ICL-2)、年齢ベースの推薦における公平さの偏りを明らかにした。統計的に重要なテストでは、これらの偏差はランダムではなく、ロバストな評価方法の必要性を強調している。この研究は、提案された規範的フレームワークに関する予備的な議論を提供する一方で、RecLLMの監査とバイアス軽減のための形式的で原則化されたアプローチを提供することを期待しています。この作業で使用されるコードとデータセットは、"gihub-anonymized"で共有される。

関連論文リスト

BEATS: Bias Evaluation and Assessment Test Suite for Large Language Models [0.0]
我々は、大規模言語モデル(LLM)におけるバイアス、倫理、公平性、現実性を評価するための新しいフレームワークBEATSを紹介する。 LLMのバイアスベンチマークを行い、29の異なるメトリクスのパフォーマンスを計測する。これらの指標は、人口統計学、認知学、社会的偏見、倫理的推論、グループフェアネス、事実に関する誤情報リスクなど、幅広い特徴に及びます。
論文参考訳（メタデータ） (2025-03-31T16:56:52Z)
FLEX: A Benchmark for Evaluating Robustness of Fairness in Large Language Models [7.221774553388335]
バイアスを誘発するために構築されたプロンプトに露出しても、大きな言語モデルが公平性を維持することができるかどうかをテストするための新しいベンチマークを導入する。我々は、潜在的なバイアスを公平性評価に増幅するプロンプトを統合する。これは安全性と公正性を保証するために、より厳格な評価ベンチマークの必要性を強調している。
論文参考訳（メタデータ） (2025-03-25T10:48:33Z)
Re-evaluating Open-ended Evaluation of Large Language Models [50.23008729038318]
現在のEloベースのレーティングシステムは、データ、意図的、あるいは偶発的なバイアスの影響を受けやすく、さらに強化できることを示している。本稿では,3人プレイヤゲームとしての評価を提案し,冗長性に対するロバスト性を確保するために,ゲーム理論の新たな概念を導入する。
論文参考訳（メタデータ） (2025-02-27T15:07:47Z)
Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge [84.34545223897578]
多くの領域で優れているにもかかわらず、潜在的な問題は未解決のままであり、その信頼性と実用性の範囲を損なう。提案手法は, LLM-as-a-Judgeにおける各種類のバイアスを定量化し, 解析する自動バイアス定量化フレームワークである。当社の作業は、これらの問題に対処するステークホルダの必要性を強調し、LLM-as-a-Judgeアプリケーションで注意を喚起します。
論文参考訳（メタデータ） (2024-10-03T17:53:30Z)
Editable Fairness: Fine-Grained Bias Mitigation in Language Models [52.66450426729818]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。 FASTは最先端のベースラインを超え、デバイアス性能が優れている。これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文参考訳（メタデータ） (2024-08-07T17:14:58Z)
An Actionable Framework for Assessing Bias and Fairness in Large Language Model Use Cases [0.0]
本稿では,大規模言語モデルにおけるバイアスと公平性リスクを評価するための実践者のための技術ガイドを提供する。この作業の主な貢献は、特定のLLMユースケースで使用するメトリクスを決定するための決定フレームワークである。
論文参考訳（メタデータ） (2024-07-15T16:04:44Z)
Inducing Group Fairness in LLM-Based Decisions [12.368678951470162]
Prompting Large Language Models (LLMs) におけるグループフェアネスは、よく研究されている問題である。我々は、プロンプトベースの分類器が不公平な判断につながる可能性があることを示す。いくつかの修復手法を導入し、公平さとパフォーマンスのトレードオフをベンチマークします。
論文参考訳（メタデータ） (2024-06-24T15:45:20Z)
Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-05T16:35:30Z)
CFaiRLLM: Consumer Fairness Evaluation in Large-Language Model Recommender System [16.84754752395103]
本研究は,Large Language Model (LLM) ベースのレコメンデータシステムにおける公平性評価に関する過去の研究に批判的な立場を取る。 CFaiRLLMは、真の嗜好アライメントを組み込むだけでなく、交叉フェアネスを厳格に検証する拡張評価フレームワークである。 CFaiRLLMの有効性を検証するため,MovieLensとLastFMを用いた広範囲な実験を行った。
論文参考訳（メタデータ） (2024-03-08T20:44:59Z)
Understanding Biases in ChatGPT-based Recommender Systems: Provider Fairness, Temporal Stability, and Recency [9.882829614199453]
本稿では,ChatGPTに基づく推薦システムにおけるバイアスについて考察し,提供者フェアネス(イテム側フェアネス)に着目した。最初の実験では、トップK推薦の精度と公平性について、7つの異なるプロンプトシナリオを評価した。フェアネスを「フェアレコメンデーターとしての行動」のようなシステムの役割に組み込むことは、プロンプト内のフェアネスディレクティブよりも効果的であることが証明された。
論文参考訳（メタデータ） (2024-01-19T08:09:20Z)
Marginal Debiased Network for Fair Visual Recognition [59.05212866862219]
本稿では,デバイアス表現を学習するための新しい限界脱バイアスネットワーク(MDN)を提案する。我々のMDNは、表現不足のサンプルに対して顕著な性能を達成できる。
論文参考訳（メタデータ） (2024-01-04T08:57:09Z)
GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-12-11T12:02:14Z)
Parametric Fairness with Statistical Guarantees [0.46040036610482665]
我々は、予測に分布特性を組み込むためのデモグラフィックパリティの概念を拡張し、専門家の知識を公正なソリューションで利用できるようにする。我々は、賃金の実践的な例を通して、この新しい指標の使用を説明し、実践的な課題に効率的に対処するパラメトリック手法を開発する。
論文参考訳（メタデータ） (2023-10-31T14:52:39Z)
Is ChatGPT Fair for Recommendation? Evaluating Fairness in Large Language Model Recommendation [52.62492168507781]
LLM(FaiRLLM)を用いたFairness of Recommendationと呼ばれる新しいベンチマークを提案する。このベンチマークは、慎重に作成されたメトリクスと、8つの機密属性を考慮に入れたデータセットで構成されている。 FaiRLLMベンチマークを用いて、ChatGPTの評価を行い、レコメンデーションを生成する際には、いくつかの機密属性に対して不公平であることがわかった。
論文参考訳（メタデータ） (2023-05-12T16:54:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。