論文の概要: Uncertainty and Fairness Awareness in LLM-Based Recommendation Systems
- arxiv url: http://arxiv.org/abs/2602.02582v1
- Date: Sat, 31 Jan 2026 17:18:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:14.953599
- Title: Uncertainty and Fairness Awareness in LLM-Based Recommendation Systems
- Title(参考訳): LLMレコメンデーションシステムにおける不確かさと公正意識
- Authors: Chandan Kumar Sah, Xiaoli Lian, Li Zhang, Tony Xu, Syed Shazaib Shah,
- Abstract要約: 本稿では,不確実性と公平性の評価が大規模言語モデル(LLM)の精度,一貫性,信頼性に与える影響について検討する。
我々は(エントロピーを通じて)予測の不確実性を定量化し、Google DeepMindのGemini 1.5 Flashが特定の機密属性に対して体系的に不確実性を示すことを示した。
本稿では,RecLLMに対する新たな不確実性評価手法を提案する。
- 参考スコア(独自算出の注目度): 3.937681476010311
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) enable powerful zero-shot recommendations by leveraging broad contextual knowledge, yet predictive uncertainty and embedded biases threaten reliability and fairness. This paper studies how uncertainty and fairness evaluations affect the accuracy, consistency, and trustworthiness of LLM-generated recommendations. We introduce a benchmark of curated metrics and a dataset annotated for eight demographic attributes (31 categorical values) across two domains: movies and music. Through in-depth case studies, we quantify predictive uncertainty (via entropy) and demonstrate that Google DeepMind's Gemini 1.5 Flash exhibits systematic unfairness for certain sensitive attributes; measured similarity-based gaps are SNSR at 0.1363 and SNSV at 0.0507. These disparities persist under prompt perturbations such as typographical errors and multilingual inputs. We further integrate personality-aware fairness into the RecLLM evaluation pipeline to reveal personality-linked bias patterns and expose trade-offs between personalization and group fairness. We propose a novel uncertainty-aware evaluation methodology for RecLLMs, present empirical insights from deep uncertainty case studies, and introduce a personality profile-informed fairness benchmark that advances explainability and equity in LLM recommendations. Together, these contributions establish a foundation for safer, more interpretable RecLLMs and motivate future work on multi-model benchmarks and adaptive calibration for trustworthy deployment.
- Abstract(参考訳): 大規模言語モデル(LLM)は、広義の文脈知識を活用することで強力なゼロショットレコメンデーションを可能にするが、予測の不確実性や組込みバイアスは信頼性と公平性を脅かす。
本稿では,不確実性と公平性の評価がLCM生成レコメンデーションの正確性,一貫性,信頼性に与える影響について検討する。
本稿では,2つの領域(映画と音楽)にまたがる8つの属性(31の分類値)に注釈付けされたメトリクスとデータセットのベンチマークを紹介する。
詳細なケーススタディを通じて、予測の不確実性(エントロピーによる)を定量化し、Google DeepMindのGemini 1.5 Flashが特定の機密属性に対して体系的に不公平であることを示す。
これらの相違は、タイポグラフィ的誤りや多言語入力のような急激な摂動の下で持続する。
さらに、パーソナライズとグループフェアネスのトレードオフを明らかにするために、RecLLM評価パイプラインにパーソナライズを意識したフェアネスを統合する。
本稿では,RecLLMの新たな不確実性評価手法を提案するとともに,LLMレコメンデーションにおける説明可能性と公平性を向上するパーソナリティプロファイルインフォームドフェアネスベンチマークを提案する。
これらの貢献により、より安全でより解釈可能なRecLLMの基礎を確立し、信頼性の高いデプロイメントのためのマルチモデルベンチマークと適応キャリブレーションに関する将来の取り組みを動機付けている。
関連論文リスト
- Beyond Hallucinations: A Composite Score for Measuring Reliability in Open-Source Large Language Models [0.0]
大規模言語モデル(LLM)は、医療、法律、金融といった決定クリティカルな領域でますます使われている。
彼らはしばしば過度に自信過剰なエラーを犯し、入力シフトの下で分解し、明確な不確実性推定を欠いている。
キャリブレーション,ロバスト性,不確実性の定量化をひとつの解釈可能な指標に統合する統合フレームワークであるCRS(Composite Reliability Score)を導入する。
論文 参考訳(メタデータ) (2025-12-30T08:07:28Z) - Rubric-Conditioned LLM Grading: Alignment, Uncertainty, and Robustness [4.129847064263056]
ルーブリックをベースとした短問合せ学習における大規模言語モデルの性能を体系的に評価する。
二つのタスクに対してアライメントは強いが、粗い粒度が増すにつれて劣化する。
実験により、モデルが注射に抵抗性がある一方で、同義置換に敏感であることが判明した。
論文 参考訳(メタデータ) (2025-12-21T05:22:04Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - Is Your Model Fairly Certain? Uncertainty-Aware Fairness Evaluation for LLMs [7.197702136906138]
モデルフェアネスのきめ細かい評価を可能にするため,不確実性を考慮した評価基準であるUCerFを提案する。
現在のデータセットにおけるデータサイズ、多様性、明快さの問題を観察し、新しいジェンダー占有公正度評価データセットを導入する。
我々は、メトリックとデータセットを使用してベンチマークを確立し、それを10のオープンソースAIシステムの動作評価に適用する。
論文 参考訳(メタデータ) (2025-05-29T20:45:18Z) - Uncertainty Profiles for LLMs: Uncertainty Source Decomposition and Adaptive Model-Metric Selection [4.151658495779136]
大型言語モデル(LLM)は、幻覚として知られる事実的に誤った出力を生成することが多い。
本研究では,不確実性を4つの異なるソースに分解するための系統的枠組みを提案する。
本稿では,その不確実性特性と与えられたタスクのアライメントやばらつきによって導かれるタスク固有距離/モデル選択法を提案する。
論文 参考訳(メタデータ) (2025-05-12T07:55:22Z) - Label-Confidence-Aware Uncertainty Estimation in Natural Language Generation [8.635811152610604]
不確実性定量化(UQ)は、AIシステムの安全性と堅牢性を保証するために不可欠である。
サンプルとラベルソース間の分岐に基づくラベル信頼度(LCA)の不確実性評価を提案する。
論文 参考訳(メタデータ) (2024-12-10T07:35:23Z) - On the Fairness, Diversity and Reliability of Text-to-Image Generative Models [68.62012304574012]
マルチモーダル生成モデルは 信頼性 公正性 誤用の可能性について 批判的な議論を巻き起こしました
埋め込み空間におけるグローバルおよびローカルな摂動に対する応答を解析し、モデルの信頼性を評価するための評価フレームワークを提案する。
提案手法は, 信頼できない, バイアス注入されたモデルを検出し, 組込みバイアスの証明をトレースするための基礎となる。
論文 参考訳(メタデータ) (2024-11-21T09:46:55Z) - Identifying and Mitigating Social Bias Knowledge in Language Models [52.52955281662332]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。