論文の概要: Benchmarking and Pushing the Multi-Bias Elimination Boundary of LLMs via Causal Effect Estimation-guided Debiasing
- arxiv url: http://arxiv.org/abs/2505.16522v1
- Date: Thu, 22 May 2025 11:04:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.241862
- Title: Benchmarking and Pushing the Multi-Bias Elimination Boundary of LLMs via Causal Effect Estimation-guided Debiasing
- Title(参考訳): 因果効果推定誘導バイアス法によるLCMのマルチバイアス除去境界のベンチマークとプッシュ
- Authors: Zhouhao Sun, Zhiyuan Kan, Xiao Ding, Li Du, Yang Zhao, Bing Qin, Ting Liu,
- Abstract要約: 現在の大規模言語モデル(LLM)は、推論中にまだバイアスを利用する可能性があるため、LLMの一般化性は低い。
それぞれのデータに5種類のバイアスを含むマルチバイアスベンチマークを提案する。
CMBEは,複数種類のバイアスを同時に排除し,LLMの一般化性を高めることができることを示す。
- 参考スコア(独自算出の注目度): 41.90664134611629
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite significant progress, recent studies have indicated that current large language models (LLMs) may still utilize bias during inference, leading to the poor generalizability of LLMs. Some benchmarks are proposed to investigate the generalizability of LLMs, with each piece of data typically containing one type of controlled bias. However, a single piece of data may contain multiple types of biases in practical applications. To bridge this gap, we propose a multi-bias benchmark where each piece of data contains five types of biases. The evaluations conducted on this benchmark reveal that the performance of existing LLMs and debiasing methods is unsatisfying, highlighting the challenge of eliminating multiple types of biases simultaneously. To overcome this challenge, we propose a causal effect estimation-guided multi-bias elimination method (CMBE). This method first estimates the causal effect of multiple types of biases simultaneously. Subsequently, we eliminate the causal effect of biases from the total causal effect exerted by both the semantic information and biases during inference. Experimental results show that CMBE can effectively eliminate multiple types of bias simultaneously to enhance the generalizability of LLMs.
- Abstract(参考訳): しかし近年の研究では、現在の大規模言語モデル(LLM)は推論中にまだバイアスを利用する可能性があり、LLMの一般化性は低いことが示されている。
いくつかのベンチマークはLLMの一般化可能性を調べるために提案され、典型的には1種類の制御バイアスを含むデータである。
しかし、データの1つの部分には、実用アプリケーションにおける複数の種類のバイアスが含まれる可能性がある。
このギャップを埋めるために、各データに5種類のバイアスを含むマルチバイアスベンチマークを提案する。
本ベンチマークの結果,既存のLCMとデバイアス法の性能は満足のいくものではなく,複数のバイアスを同時に排除する難しさを浮き彫りにした。
そこで本研究では,因果効果推定誘導マルチバイアス除去法(CMBE)を提案する。
この方法はまず、複数のバイアスの因果効果を同時に推定する。
その後、推論中に意味情報とバイアスの両方が与える全因果効果からバイアスの因果効果を除去する。
実験の結果,CMBEは複数種類のバイアスを同時に排除し,LLMの一般化性を高めることができることがわかった。
関連論文リスト
- No LLM is Free From Bias: A Comprehensive Study of Bias Evaluation in Large Language models [0.9620910657090186]
大規模言語モデル(LLM)は、異なる自然言語理解と生成タスクの性能を高めている。
LLMは様々なタスクにおける最先端のパフォーマンスを破っているが、トレーニングデータに存在する様々な形式のバイアスを反映していることが多い。
物理特性から社会経済的カテゴリに至るまで,様々なバイアスをカバーできる代表的LCMを用いて,ベンチマークを統一的に評価する。
論文 参考訳(メタデータ) (2025-03-15T03:58:14Z) - Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。
本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文 参考訳(メタデータ) (2025-02-03T17:13:03Z) - How far can bias go? -- Tracing bias from pretraining data to alignment [54.51310112013655]
本研究では, 事前学習データにおける性別占有バイアスと, LLMにおける性別占有バイアスの相関について検討した。
その結果,事前学習データに存在するバイアスがモデル出力に増幅されることが判明した。
論文 参考訳(メタデータ) (2024-11-28T16:20:25Z) - Causal-Guided Active Learning for Debiasing Large Language Models [40.853803921563596]
現在の生成型大規模言語モデル(LLM)は、それでもデータセットバイアスを捕捉し、生成に利用することができる。
従来の知識に基づくデバイアス法や微調整に基づくデバイアス法は、現在のLCMには適さない可能性がある。
LLM自体を利用して情報バイアスされたサンプルを自動かつ自律的に識別し,バイアスパターンを誘導する,カジュアル誘導型アクティブラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-23T09:46:15Z) - CEB: Compositional Evaluation Benchmark for Fairness in Large Language Models [58.57987316300529]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを処理するために、ますます多くデプロイされている。
LLMが示すバイアスを評価するために、研究者は最近、様々なデータセットを提案している。
我々は,様々な社会的グループやタスクにまたがる様々なバイアスをカバーした構成的評価ベンチマークであるCEBを提案する。
論文 参考訳(メタデータ) (2024-07-02T16:31:37Z) - Reinforcement Learning from Multi-role Debates as Feedback for Bias Mitigation in LLMs [6.090496490133132]
本稿では,従来のRLHFのフィードバックに取って代わるバイアス緩和手法であるReinforcement Learning from Multi-role Debates as Feedback (RLDF)を提案する。
強化学習における報酬モデルのトレーニングに,高バイアスと低バイアスの両方のインスタンスを含むデータセットを作成するために,LLMをマルチロール討論に活用する。
論文 参考訳(メタデータ) (2024-04-15T22:18:50Z) - Mitigating Biases of Large Language Models in Stance Detection with Counterfactual Augmented Calibration [43.02857908228108]
大規模言語モデル (LLM) は、スタンス検出を含む様々な自然言語処理タスクにおいて顕著な進歩を示している。
姿勢検出におけるそれらの性能は、データ駆動性に起因するバイアスと刺激的な相関によって制限される。
本稿では,LCMの姿勢予測における潜在的なバイアスをキャリブレーションする新たなキャリブレーションネットワークであるFACTUALを提案する。
論文 参考訳(メタデータ) (2024-02-22T05:17:49Z) - Counterfactual Maximum Likelihood Estimation for Training Deep Networks [83.44219640437657]
深層学習モデルは、予測的手がかりとして学習すべきでない急激な相関を学習する傾向がある。
本研究では,観測可能な共同設立者による相関関係の緩和を目的とした因果関係に基づくトレーニングフレームワークを提案する。
自然言語推論(NLI)と画像キャプションという2つの実世界の課題について実験を行った。
論文 参考訳(メタデータ) (2021-06-07T17:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。