論文の概要: Unveiling Bias in Fairness Evaluations of Large Language Models: A
Critical Literature Review of Music and Movie Recommendation Systems
- arxiv url: http://arxiv.org/abs/2401.04057v1
- Date: Mon, 8 Jan 2024 17:57:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 14:49:15.014486
- Title: Unveiling Bias in Fairness Evaluations of Large Language Models: A
Critical Literature Review of Music and Movie Recommendation Systems
- Title(参考訳): 大規模言語モデルの公平性評価におけるバイアスの解き放つ:音楽・映画推薦システムの批判的文献レビュー
- Authors: Chandan Kumar Sah, Dr. Lian Xiaoli, Muhammad Mirajul Islam
- Abstract要約: 生成的人工知能の台頭、特にLarge Language Models (LLMs) は、正確性とともに公正性を精査する衝動を強めている。
近年,レコメンデーションなどの領域におけるLCMの公平性評価が研究されている。
しかし、現在の公平性評価フレームワークがパーソナライズに寄与する程度は未定である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The rise of generative artificial intelligence, particularly Large Language
Models (LLMs), has intensified the imperative to scrutinize fairness alongside
accuracy. Recent studies have begun to investigate fairness evaluations for
LLMs within domains such as recommendations. Given that personalization is an
intrinsic aspect of recommendation systems, its incorporation into fairness
assessments is paramount. Yet, the degree to which current fairness evaluation
frameworks account for personalization remains unclear. Our comprehensive
literature review aims to fill this gap by examining how existing frameworks
handle fairness evaluations of LLMs, with a focus on the integration of
personalization factors. Despite an exhaustive collection and analysis of
relevant works, we discovered that most evaluations overlook personalization, a
critical facet of recommendation systems, thereby inadvertently perpetuating
unfair practices. Our findings shed light on this oversight and underscore the
urgent need for more nuanced fairness evaluations that acknowledge
personalization. Such improvements are vital for fostering equitable
development within the AI community.
- Abstract(参考訳): 生成型人工知能、特に大規模言語モデル(llm)の台頭は、正確性とともに公平性を検査する必要性を強めた。
近年,レコメンデーションなどのドメイン内のllmの公平性評価に関する研究が始まっている。
パーソナライゼーションがレコメンデーションシステムの本質的な側面であることを考えると、公平性評価への取り入れが最重要である。
しかし、現在の公平性評価フレームワークがパーソナライズに寄与する程度は未定である。
本研究の総合的な文献レビューは, LLMの公平性評価をどのように扱うかを検討することで, パーソナライズ要因の統合に着目し, このギャップを埋めることを目的としている。
関連作品の徹底的な収集と分析を行った結果,ほとんどの評価は,レコメンデーションシステムの重要な側面であるパーソナライゼーションを軽視し,不当な慣行を必然的に持続させることが判明した。
以上の結果から,パーソナライゼーションを承認する,より曖昧な公平性評価の必要性が浮き彫りになった。
このような改善は、AIコミュニティ内での公平な開発を促進する上で不可欠である。
関連論文リスト
- ReviewEval: An Evaluation Framework for AI-Generated Reviews [9.35023998408983]
本研究は、AI生成レビューのための総合的な評価フレームワークを紹介する。
人間の評価との整合性を測定し、事実の正確性を検証し、分析的な深さを評価し、実行可能な洞察を識別する。
我々のフレームワークは、AIベースのレビューシステムを評価するための標準化されたメトリクスを確立する。
論文 参考訳(メタデータ) (2025-02-17T12:22:11Z) - Enabling Scalable Oversight via Self-Evolving Critic [59.861013614500024]
SCRIT(Self-evolving CRITic)は、批評能力の真の自己進化を可能にするフレームワークである。
コントラストベースの自己批判によって生成される合成データのトレーニングによって自己改善する。
最大で10.3%の改善が達成されている。
論文 参考訳(メタデータ) (2025-01-10T05:51:52Z) - Evaluating the Consistency of LLM Evaluators [9.53888551630878]
大規模言語モデル(LLM)は、一般的な評価指標としての可能性を示している。
評価器としての整合性はまだ検討されており、LCM評価器の信頼性に関する懸念が高まっている。
論文 参考訳(メタデータ) (2024-11-30T17:29:08Z) - A Systematic Survey and Critical Review on Evaluating Large Language Models: Challenges, Limitations, and Recommendations [35.12731651234186]
大規模言語モデル(LLM)は、その顕著な能力により、最近大きな注目を集めている。
我々はこれらの不整合や信頼できない評価を引き起こす主要な課題と限界を体系的にレビューする。
批判的なレビューに基づいて、LLM評価が再現可能で、信頼性があり、堅牢であることを保証するために、私たちの視点と勧告を提示します。
論文 参考訳(メタデータ) (2024-07-04T17:15:37Z) - Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価するための自動評価器として有望な能力を示した。
LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。
Pairwise-preference Search (PAIRS) は、LLMを用いた不確実性誘導検索に基づくランクアグリゲーション手法で、局所的にペアワイズ比較を行い、グローバルに候補テキストを効率よくランク付けする。
論文 参考訳(メタデータ) (2024-03-25T17:11:28Z) - HD-Eval: Aligning Large Language Model Evaluators Through Hierarchical
Criteria Decomposition [92.17397504834825]
HD-Evalは、大規模な言語モデル評価ツールと人間の好みを反復的に調整するフレームワークである。
HD-Evalは、人間の専門家の評価思想から本質を継承し、LLMに基づく評価器のアライメントを強化する。
3つの評価領域に関する広範囲な実験は、HD-Evalのさらなる整合状態評価器の優位性を実証している。
論文 参考訳(メタデータ) (2024-02-24T08:01:32Z) - Exploring the Reliability of Large Language Models as Customized Evaluators for Diverse NLP Tasks [65.69651759036535]
大規模言語モデル(LLM)が人間にとって信頼できる代替手段であるかどうかを解析する。
本稿では、従来のタスク(例えば、ストーリー生成)とアライメントタスク(例えば、数学推論)の両方について検討する。
LLM評価器は不要な基準を生成したり、重要な基準を省略することができる。
論文 参考訳(メタデータ) (2023-10-30T17:04:35Z) - Hierarchical Evaluation Framework: Best Practices for Human Evaluation [17.91641890651225]
NLPハマーにおける広く受け入れられている評価基準の欠如は、異なるシステム間での公正な比較と、普遍的な評価基準の確立である。
我々は,NLPシステムの性能をより包括的に表現するための,独自の階層的評価フレームワークを開発した。
今後の課題として,NLPシステムの評価を行う上で,提案するフレームワークの時間節約効果について検討する。
論文 参考訳(メタデータ) (2023-10-03T09:46:02Z) - Calibrating LLM-Based Evaluator [92.17397504834825]
マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。
人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。
複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2023-09-23T08:46:11Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。