論文の概要: Detecting and Mitigating Bias in LLMs through Knowledge Graph-Augmented Training
- arxiv url: http://arxiv.org/abs/2504.00310v1
- Date: Tue, 01 Apr 2025 00:27:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:25:13.221219
- Title: Detecting and Mitigating Bias in LLMs through Knowledge Graph-Augmented Training
- Title(参考訳): 知識グラフ強化トレーニングによるLSMのバイアスの検出と緩和
- Authors: Rajeev Kumar, Harishankar Kumar, Kumari Shalini,
- Abstract要約: 本研究では,大規模言語モデルにおけるバイアスを軽減する新しい手法として,知識グラフ強化訓練(KGAT)について検討する。
バイアスアセスメントのためのパブリックデータセットには、Gender Shades、Bias in Bios、FairFaceがある。
また、バイアス付き関連を補正するためのターゲット緩和戦略も実施し、バイアス付きアウトプットの大幅な低下とバイアス指標の改善につながった。
- 参考スコア(独自算出の注目度): 2.8402080392117757
- License:
- Abstract: Large language models have revolutionized natural language processing with their surprising capability to understand and generate human-like text. However, many of these models inherit and further amplify the biases present in their training data, raising ethical and fairness concerns. The detection and mitigation of such biases are vital to ensuring that LLMs act responsibly and equitably across diverse domains. This work investigates Knowledge Graph-Augmented Training (KGAT) as a novel method to mitigate bias in LLM. Using structured domain-specific knowledge from real-world knowledge graphs, we improve the understanding of the model and reduce biased output. Public datasets for bias assessment include Gender Shades, Bias in Bios, and FairFace, while metrics such as demographic parity and equal opportunity facilitate rigorous detection. We also performed targeted mitigation strategies to correct biased associations, leading to a significant drop in biased output and improved bias metrics. Equipped with real-world datasets and knowledge graphs, our framework is both scalable and effective, paving the way toward responsible deployment in sensitive and high-stakes applications.
- Abstract(参考訳): 大きな言語モデルは、人間のようなテキストを理解して生成する驚くべき能力によって、自然言語処理に革命をもたらした。
しかしながら、これらのモデルの多くは、トレーニングデータに存在するバイアスを継承し、さらに増幅し、倫理的および公平性の懸念を提起する。
このようなバイアスの検出と緩和は、LSMが様々な領域にわたって責任を持って公平に振る舞うことを保証するために不可欠である。
本研究では,LLMにおけるバイアスを軽減する新しい手法として,知識グラフ強化訓練(KGAT)について検討する。
実世界の知識グラフから構造化されたドメイン固有知識を用いて、モデルの理解を改善し、バイアスのある出力を削減する。
バイアスアセスメントのための公開データセットには、Gender Shades、Bias in Bios、FairFaceなどがある。
また、偏りを補正するための目標緩和戦略も実施し、偏りのアウトプットが大幅に低下し、偏りの指標が改善した。
現実世界のデータセットとナレッジグラフを備えており、当社のフレームワークはスケーラブルかつ効果的で、機密性の高い高レベルのアプリケーションに責任あるデプロイメントを行うための道を開いたものです。
関連論文リスト
- How far can bias go? -- Tracing bias from pretraining data to alignment [54.51310112013655]
本研究では, 事前学習データにおける性別占有バイアスと, LLMにおける性別占有バイアスの相関について検討した。
その結果,事前学習データに存在するバイアスがモデル出力に増幅されることが判明した。
論文 参考訳(メタデータ) (2024-11-28T16:20:25Z) - Bias in Large Language Models: Origin, Evaluation, and Mitigation [4.606140332500086]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、バイアスへの感受性は大きな課題となっている。
本総説では, LLMの発端から現在の緩和戦略まで, バイアスの背景を概観する。
偏りのあるLLMの倫理的および法的含意について論じ、医療や刑事司法のような現実の応用における潜在的な害を強調した。
論文 参考訳(メタデータ) (2024-11-16T23:54:53Z) - Identifying and Mitigating Social Bias Knowledge in Language Models [52.52955281662332]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - The African Woman is Rhythmic and Soulful: An Investigation of Implicit Biases in LLM Open-ended Text Generation [3.9945212716333063]
大規模言語モデル(LLM)による決定に影響を与えるため、暗黙のバイアスは重要である。
伝統的に、明示的なバイアステストや埋め込みベースの手法はバイアスを検出するために使用されるが、これらのアプローチはより微妙で暗黙的なバイアスの形式を見落としることができる。
提案手法は, 暗黙の偏見を明らかにするために, 即発的, 意思決定的タスクによる2つの新しい心理学的手法を導入している。
論文 参考訳(メタデータ) (2024-07-01T13:21:33Z) - ROBBIE: Robust Bias Evaluation of Large Generative Language Models [27.864027322486375]
異なるプロンプトベースのデータセットを使用して、複数のテキストドメインと人口統計軸にわたる社会的バイアスを測定することができる。
我々は,12の人口動態軸と5のジェネレーションLLMの家系の6つの異なるプロンプトベースのバイアスと毒性の指標を比較した。
3つのバイアス/毒性の緩和技術が、我々の一連の測定においていかにうまく機能するかを包括的に研究する。
論文 参考訳(メタデータ) (2023-11-29T23:03:04Z) - Fast Model Debias with Machine Unlearning [54.32026474971696]
ディープニューラルネットワークは多くの現実世界のシナリオでバイアスのある振る舞いをする。
既存のデバイアス法は、バイアスラベルやモデル再トレーニングのコストが高い。
バイアスを特定し,評価し,除去するための効率的なアプローチを提供する高速モデル脱バイアスフレームワーク(FMD)を提案する。
論文 参考訳(メタデータ) (2023-10-19T08:10:57Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - D-BIAS: A Causality-Based Human-in-the-Loop System for Tackling
Algorithmic Bias [57.87117733071416]
D-BIASは、人間のループ内AIアプローチを具現化し、社会的バイアスを監査し軽減する視覚対話型ツールである。
ユーザは、因果ネットワークにおける不公平な因果関係を識別することにより、グループに対する偏見の存在を検出することができる。
それぞれのインタラクション、例えばバイアスのある因果縁の弱体化/削除は、新しい(偏りのある)データセットをシミュレートするために、新しい方法を用いている。
論文 参考訳(メタデータ) (2022-08-10T03:41:48Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。