Fugu-MT 論文翻訳(概要): BiasGuard: A Reasoning-enhanced Bias Detection Tool For Large Language Models

論文の概要: BiasGuard: A Reasoning-enhanced Bias Detection Tool For Large Language Models

arxiv url: http://arxiv.org/abs/2504.21299v1
Date: Wed, 30 Apr 2025 04:13:03 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-09 22:37:15.399566
Title: BiasGuard: A Reasoning-enhanced Bias Detection Tool For Large Language Models
Title（参考訳）: BiasGuard:大規模言語モデルのための推論強化バイアス検出ツール
Authors: Zhiting Fan, Ruizhe Chen, Zuozhu Liu,
Abstract要約: フェアネス仕様を通じて入力と理由を明示的に分析する新しいバイアス検出ツールであるBiasGuardを紹介した。 BiasGuardは2段階のアプローチで実装されている。第1段階はフェアネス仕様に基づいてモデルを明示的に推論し、第2段階は強化学習を活用して推論と判断能力を向上する。実験は5つのデータセットで行われ、BiasGuardが既存のツールより優れており、精度が向上し、過度な偏見が軽減されていることを実証した。
参考スコア（独自算出の注目度）: 7.983428892493083
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Identifying bias in LLM-generated content is a crucial prerequisite for ensuring fairness in LLMs. Existing methods, such as fairness classifiers and LLM-based judges, face limitations related to difficulties in understanding underlying intentions and the lack of criteria for fairness judgment. In this paper, we introduce BiasGuard, a novel bias detection tool that explicitly analyzes inputs and reasons through fairness specifications to provide accurate judgments. BiasGuard is implemented through a two-stage approach: the first stage initializes the model to explicitly reason based on fairness specifications, while the second stage leverages reinforcement learning to enhance its reasoning and judgment capabilities. Our experiments, conducted across five datasets, demonstrate that BiasGuard outperforms existing tools, improving accuracy and reducing over-fairness misjudgments. We also highlight the importance of reasoning-enhanced decision-making and provide evidence for the effectiveness of our two-stage optimization pipeline.
Abstract（参考訳）: LLM生成物の偏見の同定は,LLMの公平性を確保するための重要な前提条件である。フェアネス分類器やLCMベースの判断器のような既存の手法は、基礎となる意図を理解するのが困難であることや、フェアネス判定の基準の欠如に関連する制約に直面している。本稿では,バイアス検出ツールであるBiasGuardについて紹介する。 BiasGuardは2段階のアプローチで実装されている。第1段階はフェアネス仕様に基づいてモデルを明示的に推論し、第2段階は強化学習を活用して推論と判断能力を向上する。実験は5つのデータセットで行われ、BiasGuardが既存のツールより優れており、精度が向上し、過度な偏見が軽減されていることを実証した。また、推論の強化による意思決定の重要性を強調し、2段階最適化パイプラインの有効性を示す証拠を提供します。

関連論文リスト

CompassJudger-2: Towards Generalist Judge Model via Verifiable Rewards [72.44810390478229]
CompassJudger-2は、タスク駆動のマルチドメインデータキュレーション戦略によって制限を克服する新しいジェネラリストジャッジモデルである。 CompassJudger-2は、複数の判定と報奨ベンチマークで優れた結果を得る。
論文参考訳（メタデータ） (2025-07-12T01:34:24Z)
Is Your Model Fairly Certain? Uncertainty-Aware Fairness Evaluation for LLMs [7.197702136906138]
モデルフェアネスのきめ細かい評価を可能にするため,不確実性を考慮した評価基準であるUCerFを提案する。現在のデータセットにおけるデータサイズ、多様性、明快さの問題を観察し、新しいジェンダー占有公正度評価データセットを導入する。我々は、メトリックとデータセットを使用してベンチマークを確立し、それを10のオープンソースAIシステムの動作評価に適用する。
論文参考訳（メタデータ） (2025-05-29T20:45:18Z)
Improving Fairness in LLMs Through Testing-Time Adversaries [1.7811840395202343]
大規模言語モデル(LLM)は自然言語処理と生成AIのバウンダリをプッシュする。本研究では,このようなバイアスを軽減するための,単純でユーザフレンドリで実践的な手法を提案する。本手法は,特定の属性を修正し,対応する予測行動を評価することによって,与えられた文の複数のバリエーションを生成する。
論文参考訳（メタデータ） (2025-05-17T17:56:53Z)
Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文参考訳（メタデータ） (2025-04-10T07:50:03Z)
LLMs are Biased Evaluators But Not Biased for Retrieval Augmented Generation [28.61326111959728]
大規模言語モデル(LLM)は評価タスク、特に優先的に評価し、自己生成したコンテンツを好む場合に重大なバイアスを示す。本研究では,この知識ギャップを,検索強化世代(RAG)フレームワークの2つの重要なフェーズをシミュレートすることによって解決する。以上の結果とは対照的に,RAGフレームワークに有意な自己選好効果は認められなかった。
論文参考訳（メタデータ） (2024-10-28T08:32:09Z)
Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge [84.34545223897578]
多くの領域で優れているにもかかわらず、潜在的な問題は未解決のままであり、その信頼性と実用性の範囲を損なう。提案手法は, LLM-as-a-Judgeにおける各種類のバイアスを定量化し, 解析する自動バイアス定量化フレームワークである。当社の作業は、これらの問題に対処するステークホルダの必要性を強調し、LLM-as-a-Judgeアプリケーションで注意を喚起します。
論文参考訳（メタデータ） (2024-10-03T17:53:30Z)
Identifying and Mitigating Social Bias Knowledge in Language Models [52.52955281662332]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。 FASTは最先端のベースラインを超え、デバイアス性能が優れている。これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文参考訳（メタデータ） (2024-08-07T17:14:58Z)
Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文参考訳（メタデータ） (2024-06-28T20:06:30Z)
Beyond Performance: Quantifying and Mitigating Label Bias in LLMs [8.77694178599322]
モデル予測におけるラベルバイアスを定量化するための様々なアプローチを評価する。本研究により, 脱バイアス前後のモデルに有意なラベルバイアスが認められた。数発のプロンプトに適したラベルバイアス校正法を提案する。
論文参考訳（メタデータ） (2024-05-04T19:53:03Z)
Take Care of Your Prompt Bias! Investigating and Mitigating Prompt Bias in Factual Knowledge Extraction [56.17020601803071]
近年の研究では、事前学習言語モデル(PLM)が、事実知識抽出において「急激なバイアス」に悩まされていることが示されている。本稿では,突発バイアスを徹底的に調査し緩和することにより,既存のベンチマークの信頼性を向上させることを目的とする。
論文参考訳（メタデータ） (2024-03-15T02:04:35Z)
Delving into Identify-Emphasize Paradigm for Combating Unknown Bias [52.76758938921129]
同定精度を高めるため,有効バイアス強調スコアリング法(ECS)を提案する。また, マイニングされたバイアスアライメントとバイアスコンプリケート試料のコントリビューションのバランスをとるために, 勾配アライメント(GA)を提案する。様々な環境で複数のデータセットで実験を行い、提案されたソリューションが未知のバイアスの影響を軽減することを実証した。
論文参考訳（メタデータ） (2023-02-22T14:50:24Z)
On Comparing Fair Classifiers under Data Bias [42.43344286660331]
本研究では,データ偏差の変化が公正分類器の精度と公平性に及ぼす影響について検討する。我々の実験は、既存のフェアネスダッシュボードにデータバイアスリスクの尺度を統合する方法を示している。
論文参考訳（メタデータ） (2023-02-12T13:04:46Z)
Fairness and Explainability: Bridging the Gap Towards Fair Model Explanations [12.248793742165278]
我々は、説明に基づく手続き指向公正の新たな視点を提示することにより、公正性と説明可能性のギャップを埋める。本稿では,複数の目的を同時に達成する包括的公正性アルゴリズム (CFA) を提案する。
論文参考訳（メタデータ） (2022-12-07T18:35:54Z)
A Sandbox Tool to Bias(Stress)-Test Fairness Algorithms [19.86635585740634]
バイアス注入型サンドボックスツールの概念と実装について, 各種バイアスの公平性について検討する。既存のツールキットとは異なり、私たちのツールはMLパイプラインに事実上バイアスを注入する制御された環境を提供します。特に、バイアス注入前において、偏りのない状態の真のラベルに介入した後に生じる予測を比較することで、与えられた治療法が注入されたバイアスを軽減することができるかどうかを検証できる。
論文参考訳（メタデータ） (2022-04-21T16:12:19Z)
Bias-Tolerant Fair Classification [20.973916494320246]
ラベルバイアスと選択バイアスは、機械学習の結果の公平性を妨げるデータにおける2つの理由である。本稿では,ラベルバイアスと選択バイアスの影響を受けるデータを用いて,利益を回復しようとするBias-TolerantFAirRegularizedLoss (B-FARL)を提案する。 B-FARLはバイアスデータを入力として取り、公正だが潜伏的なデータで訓練されたデータを近似したモデルを呼び出す。
論文参考訳（メタデータ） (2021-07-07T13:31:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。