論文の概要: Unveiling Bias in Fairness Evaluations of Large Language Models: A
Critical Literature Review of Music and Movie Recommendation Systems
- arxiv url: http://arxiv.org/abs/2401.04057v1
- Date: Mon, 8 Jan 2024 17:57:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 14:49:15.014486
- Title: Unveiling Bias in Fairness Evaluations of Large Language Models: A
Critical Literature Review of Music and Movie Recommendation Systems
- Title(参考訳): 大規模言語モデルの公平性評価におけるバイアスの解き放つ:音楽・映画推薦システムの批判的文献レビュー
- Authors: Chandan Kumar Sah, Dr. Lian Xiaoli, Muhammad Mirajul Islam
- Abstract要約: 生成的人工知能の台頭、特にLarge Language Models (LLMs) は、正確性とともに公正性を精査する衝動を強めている。
近年,レコメンデーションなどの領域におけるLCMの公平性評価が研究されている。
しかし、現在の公平性評価フレームワークがパーソナライズに寄与する程度は未定である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The rise of generative artificial intelligence, particularly Large Language
Models (LLMs), has intensified the imperative to scrutinize fairness alongside
accuracy. Recent studies have begun to investigate fairness evaluations for
LLMs within domains such as recommendations. Given that personalization is an
intrinsic aspect of recommendation systems, its incorporation into fairness
assessments is paramount. Yet, the degree to which current fairness evaluation
frameworks account for personalization remains unclear. Our comprehensive
literature review aims to fill this gap by examining how existing frameworks
handle fairness evaluations of LLMs, with a focus on the integration of
personalization factors. Despite an exhaustive collection and analysis of
relevant works, we discovered that most evaluations overlook personalization, a
critical facet of recommendation systems, thereby inadvertently perpetuating
unfair practices. Our findings shed light on this oversight and underscore the
urgent need for more nuanced fairness evaluations that acknowledge
personalization. Such improvements are vital for fostering equitable
development within the AI community.
- Abstract(参考訳): 生成型人工知能、特に大規模言語モデル(llm)の台頭は、正確性とともに公平性を検査する必要性を強めた。
近年,レコメンデーションなどのドメイン内のllmの公平性評価に関する研究が始まっている。
パーソナライゼーションがレコメンデーションシステムの本質的な側面であることを考えると、公平性評価への取り入れが最重要である。
しかし、現在の公平性評価フレームワークがパーソナライズに寄与する程度は未定である。
本研究の総合的な文献レビューは, LLMの公平性評価をどのように扱うかを検討することで, パーソナライズ要因の統合に着目し, このギャップを埋めることを目的としている。
関連作品の徹底的な収集と分析を行った結果,ほとんどの評価は,レコメンデーションシステムの重要な側面であるパーソナライゼーションを軽視し,不当な慣行を必然的に持続させることが判明した。
以上の結果から,パーソナライゼーションを承認する,より曖昧な公平性評価の必要性が浮き彫りになった。
このような改善は、AIコミュニティ内での公平な開発を促進する上で不可欠である。
関連論文リスト
- A Systematic Survey and Critical Review on Evaluating Large Language Models: Challenges, Limitations, and Recommendations [35.12731651234186]
大規模言語モデル(LLM)は、その顕著な能力により、最近大きな注目を集めている。
我々はこれらの不整合や信頼できない評価を引き起こす主要な課題と限界を体系的にレビューする。
批判的なレビューに基づいて、LLM評価が再現可能で、信頼性があり、堅牢であることを保証するために、私たちの視点と勧告を提示します。
論文 参考訳(メタデータ) (2024-07-04T17:15:37Z) - Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価する上で有望な能力を示している。
LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。
Pairwise-preference Search (PairS)は、LLMを用いてペア比較を行い、候補テキストを効率よくランク付けする不確実性誘導探索手法である。
論文 参考訳(メタデータ) (2024-03-25T17:11:28Z) - HD-Eval: Aligning Large Language Model Evaluators Through Hierarchical
Criteria Decomposition [92.17397504834825]
HD-Evalは、大規模な言語モデル評価ツールと人間の好みを反復的に調整するフレームワークである。
HD-Evalは、人間の専門家の評価思想から本質を継承し、LLMに基づく評価器のアライメントを強化する。
3つの評価領域に関する広範囲な実験は、HD-Evalのさらなる整合状態評価器の優位性を実証している。
論文 参考訳(メタデータ) (2024-02-24T08:01:32Z) - F-Eval: Asssessing Fundamental Abilities with Refined Evaluation Methods [111.46455901113976]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。
参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文 参考訳(メタデータ) (2024-01-26T13:55:32Z) - Post Turing: Mapping the landscape of LLM Evaluation [22.517544562890663]
本稿では,アラン・チューリングによる基礎的疑問からAI研究の現代まで,大規模言語モデル (LLM) 評価の歴史的軌跡を追究する。
これらのモデルのより広範な社会的意味を考慮し、統一的な評価システムの必要性を強調した。
この作業は、AIコミュニティがLLM評価の課題に協力して対処し、信頼性、公正性、社会的な利益を保証するために役立ちます。
論文 参考訳(メタデータ) (2023-11-03T17:24:50Z) - Hierarchical Evaluation Framework: Best Practices for Human Evaluation [17.91641890651225]
NLPハマーにおける広く受け入れられている評価基準の欠如は、異なるシステム間での公正な比較と、普遍的な評価基準の確立である。
我々は,NLPシステムの性能をより包括的に表現するための,独自の階層的評価フレームワークを開発した。
今後の課題として,NLPシステムの評価を行う上で,提案するフレームワークの時間節約効果について検討する。
論文 参考訳(メタデータ) (2023-10-03T09:46:02Z) - Calibrating LLM-Based Evaluator [92.17397504834825]
マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。
人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。
複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2023-09-23T08:46:11Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z) - A Survey on Fairness-aware Recommender Systems [59.23208133653637]
本稿では,様々なレコメンデーションシナリオにおいてフェアネスの概念を提示し,現在の進歩を包括的に分類し,レコメンデーションシステムのさまざまな段階におけるフェアネスを促進するための典型的な手法を紹介する。
次に、フェアネスを意識したレコメンデーションシステムが実業界における産業応用に与える影響について検討する。
論文 参考訳(メタデータ) (2023-06-01T07:08:22Z) - Evaluation Gaps in Machine Learning Practice [13.963766987258161]
実際に、機械学習モデルの評価は、しばしば、非文脈化された予測行動の狭い範囲に焦点を当てる。
評価対象の理想化された幅と実際の評価対象の狭い焦点との間の評価ギャップについて検討した。
これらの特性を研究することで、規範的な影響を持つコミットメントの範囲について、機械学習分野の暗黙の仮定を実証する。
論文 参考訳(メタデータ) (2022-05-11T04:00:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。