論文の概要: Fairness Testing in Retrieval-Augmented Generation: How Small Perturbations Reveal Bias in Small Language Models
- arxiv url: http://arxiv.org/abs/2509.26584v1
- Date: Tue, 30 Sep 2025 17:42:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.643283
- Title: Fairness Testing in Retrieval-Augmented Generation: How Small Perturbations Reveal Bias in Small Language Models
- Title(参考訳): 検索強化世代におけるフェアネステスト:小言語モデルにおける小摂動バイアスの実態
- Authors: Matheus Vinicius da Silva de Oliveira, Jonathan de Andrade Silva, Awdren de Lima Fontao,
- Abstract要約: 本研究は, 3つの小言語モデル(SLM)による感情分析における公平性を評価するために, 制御された人口変動を導入した変成試験(MT)による公平性テストを実施する。
その結果, 微少な人口変動が変成関係(MRs)の3分の1に分解できることが示唆された。
これらの失敗を詳細に分析すると、一貫したバイアス階層が示され、人種的手がかりを含む摂動が違反の主な原因となっている。
- 参考スコア(独自算出の注目度): 0.1876920697241348
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are widely used across multiple domains but continue to raise concerns regarding security and fairness. Beyond known attack vectors such as data poisoning and prompt injection, LLMs are also vulnerable to fairness bugs. These refer to unintended behaviors influenced by sensitive demographic cues (e.g., race or sexual orientation) that should not affect outcomes. Another key issue is hallucination, where models generate plausible yet false information. Retrieval-Augmented Generation (RAG) has emerged as a strategy to mitigate hallucinations by combining external retrieval with text generation. However, its adoption raises new fairness concerns, as the retrieved content itself may surface or amplify bias. This study conducts fairness testing through metamorphic testing (MT), introducing controlled demographic perturbations in prompts to assess fairness in sentiment analysis performed by three Small Language Models (SLMs) hosted on HuggingFace (Llama-3.2-3B-Instruct, Mistral-7B-Instruct-v0.3, and Llama-3.1-Nemotron-8B), each integrated into a RAG pipeline. Results show that minor demographic variations can break up to one third of metamorphic relations (MRs). A detailed analysis of these failures reveals a consistent bias hierarchy, with perturbations involving racial cues being the predominant cause of the violations. In addition to offering a comparative evaluation, this work reinforces that the retrieval component in RAG must be carefully curated to prevent bias amplification. The findings serve as a practical alert for developers, testers and small organizations aiming to adopt accessible SLMs without compromising fairness or reliability.
- Abstract(参考訳): 大規模言語モデル(LLM)は、複数のドメインで広く使用されているが、セキュリティと公平性に関する懸念を提起し続けている。
データ中毒やプロンプトインジェクションといった既知の攻撃ベクター以外にも、LLMは公正なバグに対して脆弱である。
これらは、結果に影響を与えないセンシティブな人口統計の手がかり(例えば、人種や性的指向)に影響される意図しない行動を指す。
もう一つの重要な問題は幻覚であり、モデルがプラプティブルで偽の情報を生成する。
Retrieval-Augmented Generation (RAG) は、外部検索とテキスト生成を組み合わせることで幻覚を緩和する戦略として登場した。
しかし、検索されたコンテンツ自体がバイアスを表面化または増幅する可能性があるため、その採用は新たな公平性の懸念を提起する。
本研究では,HugingFace(Llama-3.2-3B-Instruct,Mistral-7B-Instruct-v0.3,Llama-3.1-Nemotron-8B)にホストされた3つのスモール言語モデル(SLM)による感情分析の公平性を評価するために,制御された人口統計摂動を導入した。
その結果, 微少な人口変動が変成関係(MR)の3分の1に分裂する可能性が示唆された。
これらの失敗を詳細に分析すると、一貫したバイアス階層が示され、人種的手がかりを含む摂動が違反の主な原因となっている。
比較評価に加えて、本研究は、RAGの検索成分を慎重に硬化させ、バイアス増幅を防止することを強化する。
この発見は、公正さや信頼性を損なうことなく、アクセス可能なSLMの採用を目指す開発者やテスタ、小規模な組織にとって、現実的な警告となる。
関連論文リスト
- Metamorphic Testing for Fairness Evaluation in Large Language Models: Identifying Intersectional Bias in LLaMA and GPT [2.380039717474099]
大規模言語モデル(LLM)は自然言語処理において大きな進歩を遂げてきたが、公平性に関連する問題に対して脆弱なままである。
本稿では,LLMにおける公平なバグを系統的に同定するメタモルフィックテスト手法を提案する。
論文 参考訳(メタデータ) (2025-04-04T21:04:14Z) - How far can bias go? -- Tracing bias from pretraining data to alignment [54.51310112013655]
本研究では, 事前学習データにおける性別占有バイアスと, LLMにおける性別占有バイアスの相関について検討した。
その結果,事前学習データに存在するバイアスがモデル出力に増幅されることが判明した。
論文 参考訳(メタデータ) (2024-11-28T16:20:25Z) - Identifying and Mitigating Social Bias Knowledge in Language Models [52.52955281662332]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - Thinking Racial Bias in Fair Forgery Detection: Models, Datasets and Evaluations [63.52709761339949]
最初に、Fair Forgery Detection(FairFD)データセットと呼ばれる専用のデータセットをコントリビュートし、SOTA(Public State-of-the-art)メソッドの人種的偏見を証明する。
我々は、偽りの結果を避けることができる平均的メトリクスと実用正規化メトリクスを含む新しいメトリクスを設計する。
また,有効で堅牢な後処理技術であるBias Pruning with Fair Activations (BPFA)も提案する。
論文 参考訳(メタデータ) (2024-07-19T14:53:18Z) - DispaRisk: Auditing Fairness Through Usable Information [21.521208250966918]
DispaRiskは、機械学習パイプラインの初期段階におけるデータセットの格差の潜在的なリスクを評価するために設計されたフレームワークである。
以上の結果から,識別リスクの高いデータセットを識別するDispaRiskの能力,MLパイプライン内のバイアスに起因するモデルファミリの検出,バイアスリスクの説明可能性の向上が示された。
論文 参考訳(メタデータ) (2024-05-20T20:56:01Z) - Groundedness in Retrieval-augmented Long-form Generation: An Empirical Study [61.74571814707054]
検索した文書やモデルの事前学習データに生成されたすべての文が接地されているかどうかを評価する。
3つのデータセットと4つのモデルファミリーにまたがって、生成した文のかなりの部分が一貫してアングラウンド化されていることが明らかとなった。
以上の結果から,より大きなモデルではアウトプットをより効果的に基礎づける傾向にあるものの,正解のかなりの部分が幻覚によって損なわれていることが示唆された。
論文 参考訳(メタデータ) (2024-04-10T14:50:10Z) - Fairness-enhancing mixed effects deep learning improves fairness on in- and out-of-distribution clustered (non-iid) data [6.596656267996196]
フェア・ミックスド・エフェクト・ディープ・ラーニング(Fair MEDL)フレームワークを提案する。
本フレームワークは,1)不変なFEを学習するためのクラスタ逆効果,2)REのためのベイズニューラルネットワーク,3)最終的な予測のためにFEとREを組み合わせた混合関数,を通じて,クラスタ不変な固定効果(FE)とクラスタ固有ランダムエフェクト(RE)を定量化する。
公正なMEDLフレームワークは、年齢で86.4%、人種で64.9%、性で57.8%、結婚で36.2%の公正性を向上し、堅牢な予測性能を維持している。
論文 参考訳(メタデータ) (2023-10-04T20:18:45Z) - Uncovering Bias in Face Generation Models [0.0]
GANと拡散モデルの最近の進歩により、高解像度の超現実的画像の作成が可能になった。
これらのモデルは特定の社会集団を誤って表現し、偏見を呈することがある。
この研究は、3つのアプローチに対するバイアスのきめ細かい理解のための空間をカバーおよび埋め込みする新しい分析である。
論文 参考訳(メタデータ) (2023-02-22T18:57:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。