論文の概要: BiasFilter: An Inference-Time Debiasing Framework for Large Language Models
- arxiv url: http://arxiv.org/abs/2505.23829v1
- Date: Wed, 28 May 2025 08:09:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.545602
- Title: BiasFilter: An Inference-Time Debiasing Framework for Large Language Models
- Title(参考訳): BiasFilter: 大規模言語モデルのための推論時デバイアスフレームワーク
- Authors: Xiaoqing Cheng, Ruizhe Chen, Hongying Zan, Yuxiang Jia, Min Peng,
- Abstract要約: 大規模言語モデル(LLM)における社会的バイアスの緩和は、ますます重要な研究目標となっている。
本稿では,BiasFilterを提案する。BiasFilterは,オープンソースのLLMとAPIベースのLLMをシームレスに統合する,モデルに依存しない推論時脱バイアスフレームワークである。
- 参考スコア(独自算出の注目度): 7.549501011153965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mitigating social bias in large language models (LLMs) has become an increasingly important research objective. However, existing debiasing methods often incur high human and computational costs, exhibit limited effectiveness, and struggle to scale to larger models and open-ended generation tasks. To address these limitations, this paper proposes BiasFilter, a model-agnostic, inference-time debiasing framework that integrates seamlessly with both open-source and API-based LLMs. Instead of relying on retraining with balanced data or modifying model parameters, BiasFilter enforces fairness by filtering generation outputs in real time. Specifically, it periodically evaluates intermediate outputs every few tokens, maintains an active set of candidate continuations, and incrementally completes generation by discarding low-reward segments based on a fairness reward signal. To support this process, we construct a fairness preference dataset and train an implicit reward model to assess token-level fairness in generated responses. Extensive experiments demonstrate that BiasFilter effectively mitigates social bias across a range of LLMs while preserving overall generation quality.
- Abstract(参考訳): 大規模言語モデル(LLM)における社会的バイアスの緩和は、ますます重要な研究目標となっている。
しかしながら、既存のデバイアス法は、しばしば高い人的・計算コストを発生させ、限られた有効性を示し、より大きなモデルやオープンな生成タスクにスケールするのに苦労する。
これらの制約に対処するために,BiasFilterを提案する。BiasFilterはモデルに依存しない,推論時のデバイアス処理フレームワークで,オープンソースおよびAPIベースのLLMとシームレスに統合される。
バランスの取れたデータで再トレーニングしたり、モデルパラメータを変更する代わりに、BiasFilterは、生成出力をリアルタイムでフィルタリングすることで公平さを強制する。
具体的には、いくつかのトークンごとに中間出力を定期的に評価し、候補継続のアクティブなセットを維持し、フェアネス報酬信号に基づいて低逆セグメントを破棄して生成を漸進的に完了させる。
このプロセスを支援するために、フェアネス選好データセットを構築し、暗黙の報酬モデルをトレーニングし、生成された応答におけるトークンレベルのフェアネスを評価する。
大規模な実験により、BiasFilterは、全体の世代品質を維持しながら、LLMの幅広い範囲にわたる社会的偏見を効果的に緩和することを示した。
関連論文リスト
- Towards Resource Efficient and Interpretable Bias Mitigation in Large Language Models [1.787433808079955]
大規模言語モデル (LLM) は、学習データにおいて望ましくないバイアスを持続させる。
本稿では,小さなバイアスとアンチバイアスのエキスパートモデルを利用してバイアスを緩和し,デバイアス信号を得る。
性別、人種、宗教の偏見を緩和する実験は、いくつかの地域および世界的な偏見指標に偏見を減少させる。
論文 参考訳(メタデータ) (2024-12-02T16:56:08Z) - Causal-Guided Active Learning for Debiasing Large Language Models [40.853803921563596]
現在の生成型大規模言語モデル(LLM)は、それでもデータセットバイアスを捕捉し、生成に利用することができる。
従来の知識に基づくデバイアス法や微調整に基づくデバイアス法は、現在のLCMには適さない可能性がある。
LLM自体を利用して情報バイアスされたサンプルを自動かつ自律的に識別し,バイアスパターンを誘導する,カジュアル誘導型アクティブラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-23T09:46:15Z) - Identifying and Mitigating Social Bias Knowledge in Language Models [52.52955281662332]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - BiasDPO: Mitigating Bias in Language Models through Direct Preference Optimization [0.0]
大規模言語モデル(LLM)は、自然言語処理の進歩において重要な役割を担っているが、バイアスの持続可能性には重大な懸念がある。
本稿では、英語テキストにおけるジェンダー、人種、宗教的偏見を緩和するために、DPO(Direct Preference Optimization)を用いた新しい枠組みを提案する。
バイアスのある完了よりもバイアスの少ない損失関数を開発することで、我々のアプローチは敬意と非差別的な言語を好む。
論文 参考訳(メタデータ) (2024-07-18T22:32:20Z) - ChatGPT Based Data Augmentation for Improved Parameter-Efficient Debiasing of LLMs [65.9625653425636]
大型言語モデル(LLM)は有害な社会的バイアスを示す。
そこで本研究では,ChatGPTを用いて合成学習データを生成する手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T01:28:48Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Adversarial Filters of Dataset Biases [96.090959788952]
大規模なニューラルモデルでは、言語とビジョンベンチマークで人間レベルのパフォーマンスが実証されている。
それらの性能は、敵対的またはアウト・オブ・ディストリビューションのサンプルで著しく低下する。
このようなデータセットバイアスを逆フィルタするAFLiteを提案する。
論文 参考訳(メタデータ) (2020-02-10T21:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。