論文の概要: Self-Debias: Self-correcting for Debiasing Large Language Models
- arxiv url: http://arxiv.org/abs/2604.08243v1
- Date: Thu, 09 Apr 2026 13:33:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.939407
- Title: Self-Debias: Self-correcting for Debiasing Large Language Models
- Title(参考訳): 自己バイアス: 大規模言語モデルのデバイアスのための自己修正
- Authors: Xuan Feng, Shuai Zhao, Luwei Xiao, Tianlong Gu, Bo An,
- Abstract要約: Self-Debiasは、固有の自己粒度の機能を組み込むために設計されたプログレッシブなフレームワークである。
幅広い罰則を適用する標準的な選好最適化とは異なり、セルフ・デビアスは動的偏りの制約を対象とする微妙な目標を用いる。
20kのアノテートサンプルだけで、セルフデビアスは効率的な自己補正を活性化し、優れたデバイアス性能を達成する。
- 参考スコア(独自算出の注目度): 21.723707246731525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although Large Language Models (LLMs) demonstrate remarkable reasoning capabilities, inherent social biases often cascade throughout the Chain-of-Thought (CoT) process, leading to continuous "Bias Propagation". Existing debiasing methods primarily focus on static constraints or external interventions, failing to identify and interrupt this propagation once triggered. To address this limitation, we introduce Self-Debias, a progressive framework designed to instill intrinsic self-correction capabilities. Specifically, we reformulate the debiasing process as a strategic resource redistribution problem, treating the model's output probability mass as a limited resource to be reallocated from biased heuristics to unbiased reasoning paths. Unlike standard preference optimization which applies broad penalties, Self-Debias employs a fine-grained trajectory-level objective subject to dynamic debiasing constraints. This enables the model to selectively revise biased reasoning suffixes while preserving valid contextual prefixes. Furthermore, we integrate an online self-improvement mechanism utilizing consistency filtering to autonomously synthesize supervision signals. With merely 20k annotated samples, Self-Debias activates efficient self-correction, achieving superior debiasing performance while preserving general reasoning capabilities without continuous external oversight.
- Abstract(参考訳): 大きな言語モデル(LLM)は顕著な推論能力を示すが、固有の社会的偏見は、しばしばChain-of-Thought(CoT)プロセスを通してカスケードされ、連続的な「バイアス伝播」につながる。
既存の Debiasing メソッドは主に静的な制約や外部からの介入に重点を置いている。
この制限に対処するため,本質的な自己補正機能を組み込んだプログレッシブフレームワークであるSelf-Debiasを導入する。
具体的には、デバイアス化過程を戦略的資源再分配問題として再構成し、モデルの出力確率質量をバイアスのあるヒューリスティックスからバイアスのない推論経路へ再配置する限られた資源として扱う。
幅広いペナルティを適用する標準的な選好最適化とは異なり、セルフ・デビアスはダイナミックなデバイアスの制約を対象とする微粒な軌跡レベルの目的を用いる。
これにより、有効なコンテキストプレフィックスを保持しながら、バイアス付き推論の接尾辞を選択的に修正することができる。
さらに、一貫性フィルタリングを利用したオンライン自己改善機構を統合し、監視信号を自律的に合成する。
20kのアノテートサンプルだけで、セルフデビアスは効率的な自己補正を起動し、継続的な外部監視なしに一般的な推論能力を保ちながら優れたデバイアス性能を達成する。
関連論文リスト
- MBD: A Model-Based Debiasing Framework Across User, Content, and Model Dimensions [50.00784452900918]
この課題に対処する一般モデルベースデバイアス(MBD)フレームワークを提案する。
任意のコホートに対するエンゲージメント分布の文脈平均と分散を明示的に推定する。
この統合により、フレームワークはバイアス付き生信号からバイアスなしの表現に変換することができる。
論文 参考訳(メタデータ) (2026-03-15T15:07:01Z) - Making Bias Non-Predictive: Training Robust LLM Judges via Reinforcement Learning [91.8584139564909]
大規模言語モデル(LLM)は、ますます自動化された審査員として機能するが、認知バイアスの影響を受けやすいままである。
本稿では,重要原則に基づく強化学習フレームワークである疫学独立訓練(EIT)を提案する。
EITはバランスの取れた競合戦略を通じてこれを運用します。
論文 参考訳(メタデータ) (2026-02-02T01:43:48Z) - DISCO: Mitigating Bias in Deep Learning with Conditional Distance Correlation [5.747779987045882]
この研究は因果理論と実践的な深層学習を橋渡しし、堅牢な予測のための原則的基礎と効果的なツールを提供する。
5つの多様なデータセットにまたがって、我々の手法は、既存のバイアス軽減アプローチにおいて一貫して優れるか、競争力がある。
論文 参考訳(メタデータ) (2025-06-13T10:29:03Z) - Self-Adaptive Cognitive Debiasing for Large Language Models in Decision-Making [71.71796367760112]
大規模言語モデル(LLM)は意思決定アプリケーションをサポートする可能性を示している。
我々は,自己適応型認知脱バイアス(SACD)という認知脱バイアス手法を提案する。
オープンウェイトとクローズドウェイトの両方を用いた金融・医療・法的意思決定タスクにおけるSACDの評価を行った。
論文 参考訳(メタデータ) (2025-04-05T11:23:05Z) - Towards Resource Efficient and Interpretable Bias Mitigation in Large Language Models [1.787433808079955]
大規模言語モデル (LLM) は、学習データにおいて望ましくないバイアスを持続させる。
本稿では,小さなバイアスとアンチバイアスのエキスパートモデルを利用してバイアスを緩和し,デバイアス信号を得る。
性別、人種、宗教の偏見を緩和する実験は、いくつかの地域および世界的な偏見指標に偏見を減少させる。
論文 参考訳(メタデータ) (2024-12-02T16:56:08Z) - Identifying and Mitigating Social Bias Knowledge in Language Models [52.52955281662332]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - Looking at Model Debiasing through the Lens of Anomaly Detection [11.113718994341733]
ディープニューラルネットワークはデータのバイアスに敏感である。
本研究は,偏りと偏りの一致したサンプルを正確に予測することの重要性を示す。
本稿では,異常検出に基づく新しいバイアス同定手法を提案する。
論文 参考訳(メタデータ) (2024-07-24T17:30:21Z) - Self-supervised debiasing using low rank regularization [59.84695042540525]
純粋な相関は、ディープニューラルネットワークの強いバイアスを引き起こし、一般化能力を損なう可能性がある。
ラベルのないサンプルと互換性のある自己監督型脱バイアスフレームワークを提案する。
注目すべきは,提案フレームワークが自己教師付き学習ベースラインの一般化性能を著しく向上させることである。
論文 参考訳(メタデータ) (2022-10-11T08:26:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。