論文の概要: Evaluating the Effect of Retrieval Augmentation on Social Biases
- arxiv url: http://arxiv.org/abs/2502.17611v1
- Date: Mon, 24 Feb 2025 19:58:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 18:41:10.434410
- Title: Evaluating the Effect of Retrieval Augmentation on Social Biases
- Title(参考訳): 検索能力増強がソーシャル・バイアスに及ぼす影響評価
- Authors: Tianhui Zhang, Yi Zhou, Danushka Bollegala,
- Abstract要約: 本稿では,RAGシステムの異なる構成要素と3つの言語にまたがるテキストに表される社会的偏見の関係について検討する。
生成したLCMが低レベルのバイアスを示す場合であっても,文書コレクションのバイアスは生成した応答で増幅されることが多い。
本研究は,NAGシステムに新たな事実を注入する手法としてRAGを使用することを懸念し,実世界の展開に先立って,RAGアプリケーションの潜在的な社会的偏見を慎重に評価することを求めるものである。
- 参考スコア(独自算出の注目度): 28.35953315232521
- License:
- Abstract: Retrieval Augmented Generation (RAG) has gained popularity as a method for conveniently incorporating novel facts that were not seen during the pre-training stage in Large Language Model (LLM)-based Natural Language Generation (NLG) systems. However, LLMs are known to encode significant levels of unfair social biases. The modulation of these biases by RAG in NLG systems is not well understood. In this paper, we systematically study the relationship between the different components of a RAG system and the social biases presented in the text generated across three languages (i.e. English, Japanese and Chinese) and four social bias types (i.e. gender, race, age and religion). Specifically, using the Bias Question Answering (BBQ) benchmark datasets, we evaluate the social biases in RAG responses from document collections with varying levels of stereotypical biases, employing multiple LLMs used as generators. We find that the biases in document collections are often amplified in the generated responses, even when the generating LLM exhibits a low-level of bias. Our findings raise concerns about the use of RAG as a technique for injecting novel facts into NLG systems and call for careful evaluation of potential social biases in RAG applications before their real-world deployment.
- Abstract(参考訳): Retrieval Augmented Generation(RAG)は、Large Language Model(LLM)ベースの自然言語生成(NLG)システムにおいて、事前学習段階では見られなかった新しい事実を便利に組み込む手法として人気を集めている。
しかし、LSMは、かなりのレベルの不公平な社会的偏見を符号化することが知られている。
NLG系におけるRAGによるこれらのバイアスの変調はよく理解されていない。
本稿では,3言語(英語,日本語,中国語)と4種類の社会的偏見(性別,人種,年齢,宗教)にまたがるテキストに提示される社会的偏見とRAGシステムの異なる構成要素との関係を体系的に検討する。
具体的には,Bias Question Answering(BBQ)ベンチマークデータセットを用いて,文書コレクションからのRAG応答の社会的バイアスを評価し,複数のLCMをジェネレータとして使用した。
生成したLCMが低レベルのバイアスを示す場合であっても,文書コレクションのバイアスは生成した応答で増幅されることが多い。
本研究は,NAGシステムに新たな事実を注入する手法としてRAGを使用することを懸念し,実世界の展開に先立って,RAGアプリケーションの潜在的な社会的偏見を慎重に評価することを求めるものである。
関連論文リスト
- BERGEN: A Benchmarking Library for Retrieval-Augmented Generation [26.158785168036662]
Retrieval-Augmented Generationは、外部知識による大規模言語モデルの拡張を可能にする。
一貫性のないベンチマークは、アプローチを比較し、パイプライン内の各コンポーネントの影響を理解する上で大きな課題となる。
本研究では,RAGを体系的に評価するための基礎となるベストプラクティスと,RAG実験を標準化した再現可能な研究用ライブラリであるBERGENについて検討する。
論文 参考訳(メタデータ) (2024-07-01T09:09:27Z) - Analyzing Social Biases in Japanese Large Language Models [24.351580958043595]
本稿では,英語バイアスベンチマークBBQに基づいて,質問回答のための日本語バイアスベンチマークデータセット(JBBQ)を構築した。
日本語大言語モデル(LLM)における社会的バイアスの分析
社会的バイアスに関する警告と、モデルアウトプットにおけるバイアスの影響を減らそうとするChain-of-Thought。
論文 参考訳(メタデータ) (2024-06-04T07:31:06Z) - Exploring Value Biases: How LLMs Deviate Towards the Ideal [57.99044181599786]
LLM(Large-Language-Models)は幅広いアプリケーションにデプロイされ、その応答は社会的影響を増大させる。
価値バイアスは、人間の研究結果と同様、異なるカテゴリにわたるLSMにおいて強いことが示される。
論文 参考訳(メタデータ) (2024-02-16T18:28:43Z) - CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models [49.16989035566899]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。
本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文 参考訳(メタデータ) (2024-01-30T14:25:32Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - Investigating Subtler Biases in LLMs: Ageism, Beauty, Institutional, and Nationality Bias in Generative Models [0.0]
本稿では, 年齢や美しさなど, 研究の少ない, 連続的な, 次元に沿ったバイアスについて検討する。
実験心理学において, LLMは, 特定の社会集団に対して, 肯定的, 否定的感情の偏見を広く抱いているか, あるいは「美しいものは良い」バイアスと類似しているかを問う。
論文 参考訳(メタデータ) (2023-09-16T07:07:04Z) - Benchmarking Large Language Models in Retrieval-Augmented Generation [53.504471079548]
大規模言語モデルに対する検索拡張生成の影響を系統的に検討する。
我々は、RAGに必要な4つの基本能力で、異なる大規模言語モデルの性能を解析する。
RGB(Retrieval-Augmented Generation Benchmark)は、英語と中国語の両方でRAG評価を行うための新しいコーパスである。
論文 参考訳(メタデータ) (2023-09-04T08:28:44Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。