論文の概要: Detecting and Mitigating Bias in LLMs through Knowledge Graph-Augmented Training
- arxiv url: http://arxiv.org/abs/2504.00310v1
- Date: Tue, 01 Apr 2025 00:27:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 15:43:08.83923
- Title: Detecting and Mitigating Bias in LLMs through Knowledge Graph-Augmented Training
- Title(参考訳): 知識グラフ強化トレーニングによるLSMのバイアスの検出と緩和
- Authors: Rajeev Kumar, Harishankar Kumar, Kumari Shalini,
- Abstract要約: 本研究では,大規模言語モデルにおけるバイアスを軽減する新しい手法として,知識グラフ強化訓練(KGAT)について検討する。
バイアスアセスメントのためのパブリックデータセットには、Gender Shades、Bias in Bios、FairFaceがある。
また、バイアス付き関連を補正するためのターゲット緩和戦略も実施し、バイアス付きアウトプットの大幅な低下とバイアス指標の改善につながった。
- 参考スコア(独自算出の注目度): 2.8402080392117757
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models have revolutionized natural language processing with their surprising capability to understand and generate human-like text. However, many of these models inherit and further amplify the biases present in their training data, raising ethical and fairness concerns. The detection and mitigation of such biases are vital to ensuring that LLMs act responsibly and equitably across diverse domains. This work investigates Knowledge Graph-Augmented Training (KGAT) as a novel method to mitigate bias in LLM. Using structured domain-specific knowledge from real-world knowledge graphs, we improve the understanding of the model and reduce biased output. Public datasets for bias assessment include Gender Shades, Bias in Bios, and FairFace, while metrics such as demographic parity and equal opportunity facilitate rigorous detection. We also performed targeted mitigation strategies to correct biased associations, leading to a significant drop in biased output and improved bias metrics. Equipped with real-world datasets and knowledge graphs, our framework is both scalable and effective, paving the way toward responsible deployment in sensitive and high-stakes applications.
- Abstract(参考訳): 大きな言語モデルは、人間のようなテキストを理解して生成する驚くべき能力によって、自然言語処理に革命をもたらした。
しかしながら、これらのモデルの多くは、トレーニングデータに存在するバイアスを継承し、さらに増幅し、倫理的および公平性の懸念を提起する。
このようなバイアスの検出と緩和は、LSMが様々な領域にわたって責任を持って公平に振る舞うことを保証するために不可欠である。
本研究では,LLMにおけるバイアスを軽減する新しい手法として,知識グラフ強化訓練(KGAT)について検討する。
実世界の知識グラフから構造化されたドメイン固有知識を用いて、モデルの理解を改善し、バイアスのある出力を削減する。
バイアスアセスメントのための公開データセットには、Gender Shades、Bias in Bios、FairFaceなどがある。
また、偏りを補正するための目標緩和戦略も実施し、偏りのアウトプットが大幅に低下し、偏りの指標が改善した。
現実世界のデータセットとナレッジグラフを備えており、当社のフレームワークはスケーラブルかつ効果的で、機密性の高い高レベルのアプリケーションに責任あるデプロイメントを行うための道を開いたものです。
関連論文リスト
- Fine-Grained Bias Detection in LLM: Enhancing detection mechanisms for nuanced biases [0.0]
本研究では,Large Language Models (LLMs) におけるニュアンスバイアス検出フレームワークを提案する。
このアプローチは、コンテキスト分析、注意機構による解釈可能性、および反ファクトデータ拡張を統合して、隠れたバイアスをキャプチャする。
その結果,従来の方法に比べて微妙な偏見の検出精度が向上した。
論文 参考訳(メタデータ) (2025-03-08T04:43:01Z) - An exploration of features to improve the generalisability of fake news detection models [0.0]
既存のNLPおよび教師付き機械学習メソッドは、クロスバリデーションの下ではうまく機能するが、データセットをまたいだ一般化に苦慮する。
この問題は、記事がパブリッシャに基づいてラベル付けされる、粗いラベル付きトレーニングデータに起因している。
本研究は, 粗いラベル付きデータから意味のある特徴を抽出し, 実世界のロバスト性を向上させることを実証した。
論文 参考訳(メタデータ) (2025-02-27T17:26:56Z) - How far can bias go? -- Tracing bias from pretraining data to alignment [54.51310112013655]
本研究では, 事前学習データにおける性別占有バイアスと, LLMにおける性別占有バイアスの相関について検討した。
その結果,事前学習データに存在するバイアスがモデル出力に増幅されることが判明した。
論文 参考訳(メタデータ) (2024-11-28T16:20:25Z) - Bias in Large Language Models: Origin, Evaluation, and Mitigation [4.606140332500086]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、バイアスへの感受性は大きな課題となっている。
本総説では, LLMの発端から現在の緩和戦略まで, バイアスの背景を概観する。
偏りのあるLLMの倫理的および法的含意について論じ、医療や刑事司法のような現実の応用における潜在的な害を強調した。
論文 参考訳(メタデータ) (2024-11-16T23:54:53Z) - Identifying and Mitigating Social Bias Knowledge in Language Models [52.52955281662332]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - Fast Model Debias with Machine Unlearning [54.32026474971696]
ディープニューラルネットワークは多くの現実世界のシナリオでバイアスのある振る舞いをする。
既存のデバイアス法は、バイアスラベルやモデル再トレーニングのコストが高い。
バイアスを特定し,評価し,除去するための効率的なアプローチを提供する高速モデル脱バイアスフレームワーク(FMD)を提案する。
論文 参考訳(メタデータ) (2023-10-19T08:10:57Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - D-BIAS: A Causality-Based Human-in-the-Loop System for Tackling
Algorithmic Bias [57.87117733071416]
D-BIASは、人間のループ内AIアプローチを具現化し、社会的バイアスを監査し軽減する視覚対話型ツールである。
ユーザは、因果ネットワークにおける不公平な因果関係を識別することにより、グループに対する偏見の存在を検出することができる。
それぞれのインタラクション、例えばバイアスのある因果縁の弱体化/削除は、新しい(偏りのある)データセットをシミュレートするために、新しい方法を用いている。
論文 参考訳(メタデータ) (2022-08-10T03:41:48Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。