論文の概要: Bias Testing and Mitigation in Black Box LLMs using Metamorphic Relations
- arxiv url: http://arxiv.org/abs/2512.00556v1
- Date: Sat, 29 Nov 2025 16:56:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.293788
- Title: Bias Testing and Mitigation in Black Box LLMs using Metamorphic Relations
- Title(参考訳): 変成関係を用いたブラックボックスLLMのバイアス試験と緩和
- Authors: Sina Salimian, Gias Uddin, Sumon Biswas, Henry Leung,
- Abstract要約: 本稿では,系統的バイアス評価と目標緩和のための統一的な枠組みを提案する。
われわれは6つの新しいメタモルフィック関係(MR)を導入する。
MRは直接バイアス誘発入力を意味論的に等価だが逆向きに挑戦する変種に変換する。
- 参考スコア(独自算出の注目度): 12.095552079739933
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The widespread deployment of Large Language Models (LLMs) has intensified concerns about subtle social biases embedded in their outputs. Existing guardrails often fail when faced with indirect or contextually complex bias-inducing prompts. To address these limitations, we propose a unified framework for both systematic bias evaluation and targeted mitigation. Our approach introduces six novel Metamorphic Relations (MRs) that, based on metamorphic testing principles, transform direct bias-inducing inputs into semantically equivalent yet adversarially challenging variants. These transformations enable an automated method for exposing hidden model biases: when an LLM responds inconsistently or unfairly across MR-generated variants, the underlying bias becomes detectable. We further show that the same MRs can be used to generate diverse bias-inducing samples for fine-tuning, directly linking the testing process to mitigation. Using six state-of-the-art LLMs - spanning open-source and proprietary models - and a representative subset of 385 questions from the 8,978-item BiasAsker benchmark covering seven protected groups, our MRs reveal up to 14% more hidden biases compared to existing tools. Moreover, fine-tuning with both original and MR-mutated samples significantly enhances bias resiliency, increasing safe response rates from 54.7% to over 88.9% across models. These results highlight metamorphic relations as a practical mechanism for improving fairness in conversational AI.
- Abstract(参考訳): LLM(Large Language Models)の広範な展開は、その出力に微妙な社会的バイアスが埋め込まれているという懸念を強めている。
既存のガードレールは、間接的または文脈的に複雑なバイアス誘発プロンプトに直面したときに失敗することが多い。
これらの制約に対処するため、系統的バイアス評価と目標緩和の両方のための統一的な枠組みを提案する。
提案手法では, メタモルフィックテスト原理に基づく6つの新しいメタモルフィックリレーショナル(MR)を導入し, 直接バイアス誘発入力を意味論的に等価だが逆向きに困難な変種に変換する。
これらの変換は隠れたモデルバイアスを隠蔽する自動的な方法を可能にする: LLMがMR生成された変種間で矛盾または不公平に応答すると、基礎となるバイアスが検出される。
さらに、同じMRを用いて、微調整のための多様なバイアス誘発サンプルを生成し、テストプロセスと緩和を直接リンクできることも示します。
オープンソースのモデルとプロプライエタリなモデルにまたがる6つの最先端のLLMと、保護された7つのグループをカバーする8,978項目のBiasAskerベンチマークの385の質問の代表的なサブセットを使用して、MRは既存のツールと比較して最大14%の隠れバイアスを明らかにします。
さらに、原型およびMR変異サンプルの微調整はバイアス抵抗性を著しく向上させ、安全な応答率を54.7%から88.9%以上に向上させた。
これらの結果は、会話型AIの公平性を改善するための実践的なメカニズムとして、変成関係を強調している。
関連論文リスト
- Silenced Biases: The Dark Side LLMs Learned to Refuse [5.2630646053506345]
モデルの潜在空間内にエンコードされた不公平な選好であるサイレントバイアスの概念を導入する。
我々は,アクティベーションステアリングを用いて,これらのバイアスを明らかにすることを目的としたサイレンスドバイアスベンチマーク(SBB)を提案する。
論文 参考訳(メタデータ) (2025-11-05T11:24:50Z) - Adaptive Generation of Bias-Eliciting Questions for LLMs [18.608477560948003]
大規模言語モデル(LLM)は現在、ユーザ向けアプリケーションに広くデプロイされており、世界中で数億に達しています。
我々は,性,人種,宗教などのセンシティブな属性に対して,現実的でオープンな質問を自動的に生成する,反現実的バイアス評価フレームワークを導入する。
また、非対称な拒絶や偏見の明示的な認識など、ユーザインタラクションにますます関係する異なる応答次元も捉えています。
論文 参考訳(メタデータ) (2025-10-14T13:08:10Z) - BiasFreeBench: a Benchmark for Mitigating Bias in Large Language Model Responses [32.58830706120845]
大規模言語モデル(LLM)のバイアス緩和手法に関する既存の研究は、様々なベースラインとメトリクスを用いてバイアス低減性能を評価する。
BiasFreeBenchは8つの主流バイアス緩和手法を包括的に比較した経験的ベンチマークである。
我々は、バイアス軽減研究のための統合テストベッドを確立することを目的として、我々のベンチマークを公開します。
論文 参考訳(メタデータ) (2025-09-30T19:56:54Z) - From Harm to Help: Turning Reasoning In-Context Demos into Assets for Reasoning LMs [58.02809208460186]
デモとしてDeepSeek-R1の高品質なトレースを使って、このパラドックスを再検討する。
デモが最適であっても、より多くの例を加えることで、常に精度が低下することがわかった。
デモを明示的で再利用可能な洞察に変換するシーケンシャルなテストタイム手順であるInsight-to-solve(I2S)を紹介します。
論文 参考訳(メタデータ) (2025-09-27T08:59:31Z) - Meta-Fair: AI-Assisted Fairness Testing of Large Language Models [2.9632404823837777]
公正さは人工知能(AI)システムの開発における中核的な原則である。
大規模言語モデル(LLM)におけるフェアネステストへの現在のアプローチは、手動評価、固定テンプレート、決定論、キュレートされたデータセットに依存していることが多い。
本研究は,LLMの公正性をテストするための,新しい自動化手法の基盤となることを目的としている。
論文 参考訳(メタデータ) (2025-07-03T11:20:59Z) - Judging with Many Minds: Do More Perspectives Mean Less Prejudice? On Bias Amplifications and Resistance in Multi-Agent Based LLM-as-Judge [70.89799989428367]
我々は、位置バイアス、冗長性バイアス、チェーンオブ思考バイアス、バンドワゴンバイアスの4つの多様なバイアスタイプを体系的に分析する。
広く採用されているマルチエージェントLLM-as-JudgeフレームワークであるMulti-Agent-DebateとLLM-as-Meta-Judgeでこれらのバイアスを評価する。
論文 参考訳(メタデータ) (2025-05-26T03:56:41Z) - Metamorphic Testing for Fairness Evaluation in Large Language Models: Identifying Intersectional Bias in LLaMA and GPT [2.380039717474099]
大規模言語モデル(LLM)は自然言語処理において大きな進歩を遂げてきたが、公平性に関連する問題に対して脆弱なままである。
本稿では,LLMにおける公平なバグを系統的に同定するメタモルフィックテスト手法を提案する。
論文 参考訳(メタデータ) (2025-04-04T21:04:14Z) - Exploring Response Uncertainty in MLLMs: An Empirical Evaluation under Misleading Scenarios [49.53589774730807]
マルチモーダル大規模言語モデル(MLLM)は近年,視覚的質問応答から映像理解に至るまでのタスクにおいて,最先端のパフォーマンスを実現している。
12件のオープンソースMLLMが, 単一の偽装キューを受けた65%の症例において, 既往の正解を覆した。
論文 参考訳(メタデータ) (2024-11-05T01:11:28Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Take Care of Your Prompt Bias! Investigating and Mitigating Prompt Bias in Factual Knowledge Extraction [56.17020601803071]
近年の研究では、事前学習言語モデル(PLM)が、事実知識抽出において「急激なバイアス」に悩まされていることが示されている。
本稿では,突発バイアスを徹底的に調査し緩和することにより,既存のベンチマークの信頼性を向上させることを目的とする。
論文 参考訳(メタデータ) (2024-03-15T02:04:35Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。