Fugu-MT 論文翻訳(概要): Unveiling Bias in Fairness Evaluations of Large Language Models: A Critical Literature Review of Music and Movie Recommendation Systems

論文の概要: Unveiling Bias in Fairness Evaluations of Large Language Models: A Critical Literature Review of Music and Movie Recommendation Systems

arxiv url: http://arxiv.org/abs/2401.04057v1
Date: Mon, 8 Jan 2024 17:57:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-09 14:49:15.014486
Title: Unveiling Bias in Fairness Evaluations of Large Language Models: A Critical Literature Review of Music and Movie Recommendation Systems
Title（参考訳）: 大規模言語モデルの公平性評価におけるバイアスの解き放つ:音楽・映画推薦システムの批判的文献レビュー
Authors: Chandan Kumar Sah, Dr. Lian Xiaoli, Muhammad Mirajul Islam
Abstract要約: 生成的人工知能の台頭、特にLarge Language Models (LLMs) は、正確性とともに公正性を精査する衝動を強めている。近年,レコメンデーションなどの領域におけるLCMの公平性評価が研究されている。しかし、現在の公平性評価フレームワークがパーソナライズに寄与する程度は未定である。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: The rise of generative artificial intelligence, particularly Large Language Models (LLMs), has intensified the imperative to scrutinize fairness alongside accuracy. Recent studies have begun to investigate fairness evaluations for LLMs within domains such as recommendations. Given that personalization is an intrinsic aspect of recommendation systems, its incorporation into fairness assessments is paramount. Yet, the degree to which current fairness evaluation frameworks account for personalization remains unclear. Our comprehensive literature review aims to fill this gap by examining how existing frameworks handle fairness evaluations of LLMs, with a focus on the integration of personalization factors. Despite an exhaustive collection and analysis of relevant works, we discovered that most evaluations overlook personalization, a critical facet of recommendation systems, thereby inadvertently perpetuating unfair practices. Our findings shed light on this oversight and underscore the urgent need for more nuanced fairness evaluations that acknowledge personalization. Such improvements are vital for fostering equitable development within the AI community.
Abstract（参考訳）: 生成型人工知能、特に大規模言語モデル(llm)の台頭は、正確性とともに公平性を検査する必要性を強めた。近年,レコメンデーションなどのドメイン内のllmの公平性評価に関する研究が始まっている。パーソナライゼーションがレコメンデーションシステムの本質的な側面であることを考えると、公平性評価への取り入れが最重要である。しかし、現在の公平性評価フレームワークがパーソナライズに寄与する程度は未定である。本研究の総合的な文献レビューは, LLMの公平性評価をどのように扱うかを検討することで, パーソナライズ要因の統合に着目し, このギャップを埋めることを目的としている。関連作品の徹底的な収集と分析を行った結果,ほとんどの評価は,レコメンデーションシステムの重要な側面であるパーソナライゼーションを軽視し,不当な慣行を必然的に持続させることが判明した。以上の結果から,パーソナライゼーションを承認する,より曖昧な公平性評価の必要性が浮き彫りになった。このような改善は、AIコミュニティ内での公平な開発を促進する上で不可欠である。

関連論文リスト

CriticLean: Critic-Guided Reinforcement Learning for Mathematical Formalization [48.61754523492116]
CriticLeanは、新しい批評家による強化学習フレームワークである。教師付き微調整と強化学習を通じてトレーニングされたCriticLeanGPTを導入し、Lean 4の形式化の意味的忠実さを厳格に評価する。そして、CryticLeanBenchというベンチマークを紹介します。これは、モデルが意味論的に正しい形式を識別する能力を測定するために設計されたベンチマークです。
論文参考訳（メタデータ） (2025-07-08T17:03:39Z)
An Empirical Study of LLM-as-a-Judge: How Design Choices Impact Evaluation Reliability [2.8948274245812327]
評価における評価設計,復号化戦略, CoT (Chain-of-Tought) 推論の効果について検討した。その結果,評価基準は信頼性に重要であり,非決定的サンプリングは決定論的評価よりも人間の嗜好との整合性を向上し,CoT推論は明確な評価基準が存在する場合の利得を最小化することがわかった。
論文参考訳（メタデータ） (2025-06-16T16:04:43Z)
OpenReview Should be Protected and Leveraged as a Community Asset for Research in the Era of Large Language Models [55.21589313404023]
OpenReviewは、研究論文、ピアレビュー、著者の反論、メタレビュー、決定結果の継続的な進化を続けるリポジトリである。 OpenReviewは、ピアレビュープロセスの品質、スケーラビリティ、説明責任の向上、真に専門家の議論に根ざした有意義でオープンなベンチマークの実現、専門家の評価、意図、科学的価値を反映した現実世界のインタラクションによるアライメント研究の支援という、ユニークな貢献が可能な3つの領域を強調します。コミュニティは、OpenReviewに関する標準化されたベンチマークと利用ガイドラインを共同で検討し、責任あるデータの使用、倫理的考慮、集団スチュワードシップに関するより広範な対話を招待することを提案します。
論文参考訳（メタデータ） (2025-05-24T09:07:13Z)
Re-evaluating Open-ended Evaluation of Large Language Models [50.23008729038318]
現在のEloベースのレーティングシステムは、データ、意図的、あるいは偶発的なバイアスの影響を受けやすく、さらに強化できることを示している。本稿では,3人プレイヤゲームとしての評価を提案し,冗長性に対するロバスト性を確保するために,ゲーム理論の新たな概念を導入する。
論文参考訳（メタデータ） (2025-02-27T15:07:47Z)
ReviewEval: An Evaluation Framework for AI-Generated Reviews [9.35023998408983]
本研究は、AI生成レビューのための総合的な評価フレームワークを紹介する。人間の評価との整合性を測定し、事実の正確性を検証し、分析的な深さを評価し、実行可能な洞察を識別する。我々のフレームワークは、AIベースのレビューシステムを評価するための標準化されたメトリクスを確立する。
論文参考訳（メタデータ） (2025-02-17T12:22:11Z)
Enabling Scalable Oversight via Self-Evolving Critic [59.861013614500024]
SCRIT(Self-evolving CRITic)は、批評能力の真の自己進化を可能にするフレームワークである。コントラストベースの自己批判によって生成される合成データのトレーニングによって自己改善する。最大で10.3%の改善が達成されている。
論文参考訳（メタデータ） (2025-01-10T05:51:52Z)
Evaluating the Consistency of LLM Evaluators [9.53888551630878]
大規模言語モデル(LLM)は、一般的な評価指標としての可能性を示している。評価器としての整合性はまだ検討されており、LCM評価器の信頼性に関する懸念が高まっている。
論文参考訳（メタデータ） (2024-11-30T17:29:08Z)
Unveiling Context-Aware Criteria in Self-Assessing LLMs [28.156979106994537]
本研究では, 文脈認識基準(SALC)を各評価インスタンスに適した動的知識と統合した, 自己評価 LLM フレームワークを提案する。経験的評価は,本手法が既存のベースライン評価フレームワークを著しく上回っていることを示す。また,AlpacaEval2リーダボードにおけるLCWin-Rateの改善を,選好データ生成に使用する場合の12%まで改善した。
論文参考訳（メタデータ） (2024-10-28T21:18:49Z)
A Systematic Survey and Critical Review on Evaluating Large Language Models: Challenges, Limitations, and Recommendations [35.12731651234186]
大規模言語モデル(LLM)は、その顕著な能力により、最近大きな注目を集めている。我々はこれらの不整合や信頼できない評価を引き起こす主要な課題と限界を体系的にレビューする。批判的なレビューに基づいて、LLM評価が再現可能で、信頼性があり、堅牢であることを保証するために、私たちの視点と勧告を提示します。
論文参考訳（メタデータ） (2024-07-04T17:15:37Z)
Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価する上で有望な能力を示している。 LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。 Pairwise-preference Search (PairS)は、LLMを用いてペア比較を行い、候補テキストを効率よくランク付けする不確実性誘導探索手法である。
論文参考訳（メタデータ） (2024-03-25T17:11:28Z)
HD-Eval: Aligning Large Language Model Evaluators Through Hierarchical Criteria Decomposition [92.17397504834825]
HD-Evalは、大規模な言語モデル評価ツールと人間の好みを反復的に調整するフレームワークである。 HD-Evalは、人間の専門家の評価思想から本質を継承し、LLMに基づく評価器のアライメントを強化する。 3つの評価領域に関する広範囲な実験は、HD-Evalのさらなる整合状態評価器の優位性を実証している。
論文参考訳（メタデータ） (2024-02-24T08:01:32Z)
F-Eval: Assessing Fundamental Abilities with Refined Evaluation Methods [102.98899881389211]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文参考訳（メタデータ） (2024-01-26T13:55:32Z)
Post Turing: Mapping the landscape of LLM Evaluation [22.517544562890663]
本稿では,アラン・チューリングによる基礎的疑問からAI研究の現代まで,大規模言語モデル (LLM) 評価の歴史的軌跡を追究する。これらのモデルのより広範な社会的意味を考慮し、統一的な評価システムの必要性を強調した。この作業は、AIコミュニティがLLM評価の課題に協力して対処し、信頼性、公正性、社会的な利益を保証するために役立ちます。
論文参考訳（メタデータ） (2023-11-03T17:24:50Z)
Hierarchical Evaluation Framework: Best Practices for Human Evaluation [17.91641890651225]
NLPハマーにおける広く受け入れられている評価基準の欠如は、異なるシステム間での公正な比較と、普遍的な評価基準の確立である。我々は,NLPシステムの性能をより包括的に表現するための,独自の階層的評価フレームワークを開発した。今後の課題として,NLPシステムの評価を行う上で,提案するフレームワークの時間節約効果について検討する。
論文参考訳（メタデータ） (2023-10-03T09:46:02Z)
Calibrating LLM-Based Evaluator [92.17397504834825]
マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
論文参考訳（メタデータ） (2023-09-23T08:46:11Z)
FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文参考訳（メタデータ） (2023-07-20T14:56:35Z)
A Survey on Fairness-aware Recommender Systems [59.23208133653637]
本稿では,様々なレコメンデーションシナリオにおいてフェアネスの概念を提示し,現在の進歩を包括的に分類し,レコメンデーションシステムのさまざまな段階におけるフェアネスを促進するための典型的な手法を紹介する。次に、フェアネスを意識したレコメンデーションシステムが実業界における産業応用に与える影響について検討する。
論文参考訳（メタデータ） (2023-06-01T07:08:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。