論文の概要: Fairness Testing in Retrieval-Augmented Generation: How Small Perturbations Reveal Bias in Small Language Models
- arxiv url: http://arxiv.org/abs/2509.26584v1
- Date: Tue, 30 Sep 2025 17:42:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.643283
- Title: Fairness Testing in Retrieval-Augmented Generation: How Small Perturbations Reveal Bias in Small Language Models
- Title(参考訳): 検索強化世代におけるフェアネステスト:小言語モデルにおける小摂動バイアスの実態
- Authors: Matheus Vinicius da Silva de Oliveira, Jonathan de Andrade Silva, Awdren de Lima Fontao,
- Abstract要約: 本研究は, 3つの小言語モデル(SLM)による感情分析における公平性を評価するために, 制御された人口変動を導入した変成試験(MT)による公平性テストを実施する。
その結果, 微少な人口変動が変成関係(MRs)の3分の1に分解できることが示唆された。
これらの失敗を詳細に分析すると、一貫したバイアス階層が示され、人種的手がかりを含む摂動が違反の主な原因となっている。
- 参考スコア(独自算出の注目度): 0.1876920697241348
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are widely used across multiple domains but continue to raise concerns regarding security and fairness. Beyond known attack vectors such as data poisoning and prompt injection, LLMs are also vulnerable to fairness bugs. These refer to unintended behaviors influenced by sensitive demographic cues (e.g., race or sexual orientation) that should not affect outcomes. Another key issue is hallucination, where models generate plausible yet false information. Retrieval-Augmented Generation (RAG) has emerged as a strategy to mitigate hallucinations by combining external retrieval with text generation. However, its adoption raises new fairness concerns, as the retrieved content itself may surface or amplify bias. This study conducts fairness testing through metamorphic testing (MT), introducing controlled demographic perturbations in prompts to assess fairness in sentiment analysis performed by three Small Language Models (SLMs) hosted on HuggingFace (Llama-3.2-3B-Instruct, Mistral-7B-Instruct-v0.3, and Llama-3.1-Nemotron-8B), each integrated into a RAG pipeline. Results show that minor demographic variations can break up to one third of metamorphic relations (MRs). A detailed analysis of these failures reveals a consistent bias hierarchy, with perturbations involving racial cues being the predominant cause of the violations. In addition to offering a comparative evaluation, this work reinforces that the retrieval component in RAG must be carefully curated to prevent bias amplification. The findings serve as a practical alert for developers, testers and small organizations aiming to adopt accessible SLMs without compromising fairness or reliability.
- Abstract(参考訳): 大規模言語モデル(LLM)は、複数のドメインで広く使用されているが、セキュリティと公平性に関する懸念を提起し続けている。
データ中毒やプロンプトインジェクションといった既知の攻撃ベクター以外にも、LLMは公正なバグに対して脆弱である。
これらは、結果に影響を与えないセンシティブな人口統計の手がかり(例えば、人種や性的指向)に影響される意図しない行動を指す。
もう一つの重要な問題は幻覚であり、モデルがプラプティブルで偽の情報を生成する。
Retrieval-Augmented Generation (RAG) は、外部検索とテキスト生成を組み合わせることで幻覚を緩和する戦略として登場した。
しかし、検索されたコンテンツ自体がバイアスを表面化または増幅する可能性があるため、その採用は新たな公平性の懸念を提起する。
本研究では,HugingFace(Llama-3.2-3B-Instruct,Mistral-7B-Instruct-v0.3,Llama-3.1-Nemotron-8B)にホストされた3つのスモール言語モデル(SLM)による感情分析の公平性を評価するために,制御された人口統計摂動を導入した。
その結果, 微少な人口変動が変成関係(MR)の3分の1に分裂する可能性が示唆された。
これらの失敗を詳細に分析すると、一貫したバイアス階層が示され、人種的手がかりを含む摂動が違反の主な原因となっている。
比較評価に加えて、本研究は、RAGの検索成分を慎重に硬化させ、バイアス増幅を防止することを強化する。
この発見は、公正さや信頼性を損なうことなく、アクセス可能なSLMの採用を目指す開発者やテスタ、小規模な組織にとって、現実的な警告となる。
関連論文リスト
- Evaluating Social Bias in RAG Systems: When External Context Helps and Reasoning Hurts [7.344577590113121]
大規模言語モデル(LLM)に固有の社会的バイアスは、かなりの公平さを懸念する。
この研究は、RAGの社会的バイアスの影響を評価し、理解することに焦点を当てている。
論文 参考訳(メタデータ) (2026-02-10T06:27:56Z) - Ground What You See: Hallucination-Resistant MLLMs via Caption Feedback, Diversity-Aware Sampling, and Conflict Regularization [38.469173375694076]
マルチモーダル大言語モデル(MLLM)における幻覚の根本原因を系統的に解析する。
1)不正確な初期記述が後続の推論を誤った前提に固定する連鎖的視覚推論の過度な信頼、(2)政策最適化中の探索の多様性が不十分で、過度に自信があるが誤ったアウトプットを発生させる要因、(3)トレーニングサンプル間の破壊的な衝突、NTKの類似性が誤関連や不安定なパラメータ更新を引き起こす要因である。
実験の結果,提案手法は幻覚率を著しく低減し,MLLMの推論精度を効果的に向上することが示された。
論文 参考訳(メタデータ) (2026-01-09T07:59:18Z) - Breaking the Benchmark: Revealing LLM Bias via Minimal Contextual Augmentation [12.56588481992456]
大規模言語モデルは、その表現と振舞いにステレオタイプ的バイアスを示すことが示されている。
3つのプラグ・アンド・プレイステップを含む,新規で汎用的な拡張フレームワークを提案する。
大規模言語モデルは入力の摂動に影響を受けやすいことが分かり、ステレオタイプに振る舞う可能性が高くなる。
論文 参考訳(メタデータ) (2025-10-27T23:05:12Z) - Revisiting LLM Value Probing Strategies: Are They Robust and Expressive? [81.49470136653665]
広範に利用されている3つの探索戦略における値表現の頑健さと表現性を評価する。
人口統計学的文脈は自由テキスト生成にはほとんど影響を与えず、モデルの値は値に基づく行動の好みと弱い相関しか示さない。
論文 参考訳(メタデータ) (2025-07-17T18:56:41Z) - Metamorphic Testing for Fairness Evaluation in Large Language Models: Identifying Intersectional Bias in LLaMA and GPT [2.380039717474099]
大規模言語モデル(LLM)は自然言語処理において大きな進歩を遂げてきたが、公平性に関連する問題に対して脆弱なままである。
本稿では,LLMにおける公平なバグを系統的に同定するメタモルフィックテスト手法を提案する。
論文 参考訳(メタデータ) (2025-04-04T21:04:14Z) - How far can bias go? -- Tracing bias from pretraining data to alignment [54.51310112013655]
本研究では, 事前学習データにおける性別占有バイアスと, LLMにおける性別占有バイアスの相関について検討した。
その結果,事前学習データに存在するバイアスがモデル出力に増幅されることが判明した。
論文 参考訳(メタデータ) (2024-11-28T16:20:25Z) - Controlling Risk of Retrieval-augmented Generation: A Counterfactual Prompting Framework [77.45983464131977]
我々は、RAGモデルの予測が誤りであり、現実のアプリケーションにおいて制御不能なリスクをもたらす可能性がどの程度あるかに焦点を当てる。
本研究は,RAGの予測に影響を及ぼす2つの重要な潜伏要因を明らかにする。
我々は,これらの要因をモデルに誘導し,その応答に与える影響を解析する,反実的プロンプトフレームワークを開発した。
論文 参考訳(メタデータ) (2024-09-24T14:52:14Z) - Identifying and Mitigating Social Bias Knowledge in Language Models [52.52955281662332]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - Thinking Racial Bias in Fair Forgery Detection: Models, Datasets and Evaluations [63.52709761339949]
最初に、Fair Forgery Detection(FairFD)データセットと呼ばれる専用のデータセットをコントリビュートし、SOTA(Public State-of-the-art)メソッドの人種的偏見を証明する。
我々は、偽りの結果を避けることができる平均的メトリクスと実用正規化メトリクスを含む新しいメトリクスを設計する。
また,有効で堅牢な後処理技術であるBias Pruning with Fair Activations (BPFA)も提案する。
論文 参考訳(メタデータ) (2024-07-19T14:53:18Z) - DispaRisk: Auditing Fairness Through Usable Information [21.521208250966918]
DispaRiskは、機械学習パイプラインの初期段階におけるデータセットの格差の潜在的なリスクを評価するために設計されたフレームワークである。
以上の結果から,識別リスクの高いデータセットを識別するDispaRiskの能力,MLパイプライン内のバイアスに起因するモデルファミリの検出,バイアスリスクの説明可能性の向上が示された。
論文 参考訳(メタデータ) (2024-05-20T20:56:01Z) - Groundedness in Retrieval-augmented Long-form Generation: An Empirical Study [61.74571814707054]
検索した文書やモデルの事前学習データに生成されたすべての文が接地されているかどうかを評価する。
3つのデータセットと4つのモデルファミリーにまたがって、生成した文のかなりの部分が一貫してアングラウンド化されていることが明らかとなった。
以上の結果から,より大きなモデルではアウトプットをより効果的に基礎づける傾向にあるものの,正解のかなりの部分が幻覚によって損なわれていることが示唆された。
論文 参考訳(メタデータ) (2024-04-10T14:50:10Z) - Fairness-enhancing mixed effects deep learning improves fairness on in- and out-of-distribution clustered (non-iid) data [6.596656267996196]
フェア・ミックスド・エフェクト・ディープ・ラーニング(Fair MEDL)フレームワークを提案する。
本フレームワークは,1)不変なFEを学習するためのクラスタ逆効果,2)REのためのベイズニューラルネットワーク,3)最終的な予測のためにFEとREを組み合わせた混合関数,を通じて,クラスタ不変な固定効果(FE)とクラスタ固有ランダムエフェクト(RE)を定量化する。
公正なMEDLフレームワークは、年齢で86.4%、人種で64.9%、性で57.8%、結婚で36.2%の公正性を向上し、堅牢な予測性能を維持している。
論文 参考訳(メタデータ) (2023-10-04T20:18:45Z) - Uncovering Bias in Face Generation Models [0.0]
GANと拡散モデルの最近の進歩により、高解像度の超現実的画像の作成が可能になった。
これらのモデルは特定の社会集団を誤って表現し、偏見を呈することがある。
この研究は、3つのアプローチに対するバイアスのきめ細かい理解のための空間をカバーおよび埋め込みする新しい分析である。
論文 参考訳(メタデータ) (2023-02-22T18:57:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。