論文の概要: Does RAG Introduce Unfairness in LLMs? Evaluating Fairness in Retrieval-Augmented Generation Systems
- arxiv url: http://arxiv.org/abs/2409.19804v1
- Date: Sun, 29 Sep 2024 22:04:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 17:39:51.736150
- Title: Does RAG Introduce Unfairness in LLMs? Evaluating Fairness in Retrieval-Augmented Generation Systems
- Title(参考訳): RAGはLLMに不公平をもたらすか?
- Authors: Xuyang Wu, Shuowei Li, Hsin-Tai Wu, Zhiqiang Tao, Yi Fang,
- Abstract要約: RAG(Retrieval-Augmented Generation)は近年,外部知識ソースの統合能力の向上に注目が集まっている。
本稿では,RAG法に適した公平度評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 18.926129063000264
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: RAG (Retrieval-Augmented Generation) have recently gained significant attention for their enhanced ability to integrate external knowledge sources in open-domain question answering (QA) tasks. However, it remains unclear how these models address fairness concerns, particularly with respect to sensitive attributes such as gender, geographic location, and other demographic factors. First, as language models evolve to prioritize utility, like improving exact match accuracy, fairness may have been largely overlooked. Second, RAG methods are complex pipelines, making it hard to identify and address biases, as each component is optimized for different goals. In this paper, we aim to empirically evaluate fairness in several RAG methods. We propose a fairness evaluation framework tailored to RAG methods, using scenario-based questions and analyzing disparities across demographic attributes. The experimental results indicate that, despite recent advances in utility-driven optimization, fairness issues persist in both the retrieval and generation stages, highlighting the need for more targeted fairness interventions within RAG pipelines. We will release our dataset and code upon acceptance of the paper.
- Abstract(参考訳): RAG(Retrieval-Augmented Generation)は、最近、オープンドメイン質問応答(QA)タスクにおいて外部知識ソースを統合する能力の強化により、大きな注目を集めている。
しかし、これらのモデルがどのように公正な懸念に対処しているかは、特に性別、地理的な位置、その他の人口統計学的要因などのセンシティブな属性に関して、はっきりしない。
第一に、言語モデルが実用性を優先するように進化するにつれて、正確なマッチング精度が向上するなど、公正性はほとんど見過ごされていました。
第2に、RAGメソッドは複雑なパイプラインであり、各コンポーネントが異なる目標に最適化されているため、バイアスの特定と対処が難しい。
本稿では,複数のRAG法における公平性を実証的に評価することを目的とする。
本稿では,RAG法に適した公平度評価フレームワークを提案する。
実験の結果、ユーティリティ駆動最適化の最近の進歩にもかかわらず、検索と生成の両方段階でフェアネスの問題が続き、RAGパイプライン内でより標的となるフェアネス介入の必要性が強調された。
論文の受理後、データセットとコードを公開します。
関連論文リスト
- LLMs are Biased Evaluators But Not Biased for Retrieval Augmented Generation [28.61326111959728]
大規模言語モデル(LLM)は評価タスク、特に優先的に評価し、自己生成したコンテンツを好む場合に重大なバイアスを示す。
本研究では,この知識ギャップを,検索強化世代(RAG)フレームワークの2つの重要なフェーズをシミュレートすることによって解決する。
以上の結果とは対照的に,RAGフレームワークに有意な自己選好効果は認められなかった。
論文 参考訳(メタデータ) (2024-10-28T08:32:09Z) - CoFE-RAG: A Comprehensive Full-chain Evaluation Framework for Retrieval-Augmented Generation with Enhanced Data Diversity [23.48167670445722]
Retrieval-Augmented Generation (RAG) は、外部知識ソースから取得したコンテキストの助けを借りて、より正確で信頼性の高い回答を生成することを目的としている。
これらのシステムの評価は, 以下の問題により, 依然として重要な研究領域である。
RAGパイプライン全体にわたって徹底的な評価を容易にするために,包括的全チェーン評価(CoFE-RAG)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-16T05:20:32Z) - No Free Lunch: Retrieval-Augmented Generation Undermines Fairness in LLMs, Even for Vigilant Users [21.25007065608671]
Retrieval-Augmented Generation (RAG) はその有効性とコスト効率に広く採用されている。
本研究では,フェアネスのユーザ認識の観点から,現実的な3段階の脅威モデルを提案する。
我々は,RAGの公正性について,検閲されていない,部分的に検閲された,完全に検閲されたデータセットを用いて検討した。
論文 参考訳(メタデータ) (2024-10-10T03:51:58Z) - Towards Fair RAG: On the Impact of Fair Ranking in Retrieval-Augmented Generation [53.285436927963865]
本稿では,公正ランキングと統合されたRAGシステムの最初の体系的評価について述べる。
本稿では,RAGシステムで活用されるランキングにおいて,各項目の公正な露出を測定することに焦点を当てる。
以上の結果から,RAGシステムは高い世代品質を維持でき,多くの場合,従来のRAGシステムよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-09-17T23:10:04Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [69.4501863547618]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に着目し, 完全性, 幻覚, 不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - Thinking Racial Bias in Fair Forgery Detection: Models, Datasets and Evaluations [63.52709761339949]
最初に、Fair Forgery Detection(FairFD)データセットと呼ばれる専用のデータセットをコントリビュートし、SOTA(Public State-of-the-art)メソッドの人種的偏見を証明する。
我々は、偽りの結果を避けることができる平均的メトリクスと実用正規化メトリクスを含む新しいメトリクスを設計する。
また,有効で堅牢な後処理技術であるBias Pruning with Fair Activations (BPFA)も提案する。
論文 参考訳(メタデータ) (2024-07-19T14:53:18Z) - What Hides behind Unfairness? Exploring Dynamics Fairness in Reinforcement Learning [52.51430732904994]
強化学習問題では、エージェントはリターンを最大化しながら長期的な公正性を考慮する必要がある。
近年の研究では様々なフェアネスの概念が提案されているが、RL問題における不公平性がどのように生じるかは定かではない。
我々は、環境力学から生じる不平等を明示的に捉える、ダイナミックスフェアネスという新しい概念を導入する。
論文 参考訳(メタデータ) (2024-04-16T22:47:59Z) - CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models [49.16989035566899]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。
本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文 参考訳(メタデータ) (2024-01-30T14:25:32Z) - Fairness meets Cross-Domain Learning: a new perspective on Models and
Metrics [80.07271410743806]
クロスドメイン学習(CD)とモデルフェアネスの関係について検討する。
いくつかの人口集団にまたがる顔画像と医療画像のベンチマークと、分類とローカライゼーションタスクについて紹介する。
本研究は,3つの最先端フェアネスアルゴリズムとともに,14のCDアプローチをカバーし,前者が後者に勝ることを示す。
論文 参考訳(メタデータ) (2023-03-25T09:34:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。