Fugu-MT 論文翻訳(概要): Any Large Language Model Can Be a Reliable Judge: Debiasing with a Reasoning-based Bias Detector

論文の概要: Any Large Language Model Can Be a Reliable Judge: Debiasing with a Reasoning-based Bias Detector

arxiv url: http://arxiv.org/abs/2505.17100v1
Date: Wed, 21 May 2025 07:23:05 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-26 18:08:33.562631
Title: Any Large Language Model Can Be a Reliable Judge: Debiasing with a Reasoning-based Bias Detector
Title（参考訳）: どんな大きな言語モデルでも信頼性の高い判断が可能:推論ベースのバイアス検出器でバイアスを発生させる
Authors: Haoyan Yang, Runxue Bao, Cao Xiao, Jun Ma, Parminder Bhatia, Shangqian Gao, Taha Kass-Hout,
Abstract要約: 推論に基づくバイアス検出器は、バイアス評価を特定し、構造的推論を生成して評価器の自己補正を導く。 RBDモデルのサイズを1.5Bから14Bに微調整し、すべてのスケールで一貫した性能改善を観察する。例えば、RBD-8Bモデルは平均18.5%、一貫性10.9%で評価精度を向上し、それぞれ12.8%、微調整された審査員を17.2%上回る。
参考スコア（独自算出の注目度）: 39.31014594205513
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: LLM-as-a-Judge has emerged as a promising tool for automatically evaluating generated outputs, but its reliability is often undermined by potential biases in judgment. Existing efforts to mitigate these biases face key limitations: in-context learning-based methods fail to address rooted biases due to the evaluator's limited capacity for self-reflection, whereas fine-tuning is not applicable to all evaluator types, especially closed-source models. To address this challenge, we introduce the Reasoning-based Bias Detector (RBD), which is a plug-in module that identifies biased evaluations and generates structured reasoning to guide evaluator self-correction. Rather than modifying the evaluator itself, RBD operates externally and engages in an iterative process of bias detection and feedback-driven revision. To support its development, we design a complete pipeline consisting of biased dataset construction, supervision collection, distilled reasoning-based fine-tuning of RBD, and integration with LLM evaluators. We fine-tune four sizes of RBD models, ranging from 1.5B to 14B, and observe consistent performance improvements across all scales. Experimental results on 4 bias types--verbosity, position, bandwagon, and sentiment--evaluated using 8 LLM evaluators demonstrate RBD's strong effectiveness. For example, the RBD-8B model improves evaluation accuracy by an average of 18.5% and consistency by 10.9%, and surpasses prompting-based baselines and fine-tuned judges by 12.8% and 17.2%, respectively. These results highlight RBD's effectiveness and scalability. Additional experiments further demonstrate its strong generalization across biases and domains, as well as its efficiency.
Abstract（参考訳）: LLM-as-a-Judgeは生成した出力を自動的に評価するための有望なツールとして登場したが、その信頼性は判断の潜在的なバイアスによって損なわれることが多い。文脈内学習に基づく手法は、自己回帰に対する評価者の限られた能力のため、根付きバイアスに対処できないが、微調整は、すべての評価者タイプ、特にクローズドソースモデルには適用できない。この課題に対処するために、我々は、バイアス評価を識別し、構造的推論を生成して評価器の自己補正を導くプラグインモジュールであるReasoning-based Bias Detector (RBD)を導入する。 RBDは評価器自体を変更するのではなく、外部で動作し、バイアス検出とフィードバック駆動リビジョンの反復的なプロセスに従事している。その開発を支援するため、偏りのあるデータセット構築、監視収集、蒸留推論に基づくRBDの微調整、LLM評価器の統合からなる完全なパイプラインを設計する。 RBDモデルのサイズを1.5Bから14Bに微調整し、すべてのスケールで一貫した性能改善を観察する。 8 LLM評価器を用いて評価した4つのバイアスタイプ(ヴァービシティ, 位置, バンドワゴン, 感情)は, RBDの強い効果を示す。例えば、RBD-8Bモデルは平均18.5%、一貫性10.9%で評価精度を向上し、それぞれ12.8%、微調整された審査員を17.2%上回る。これらの結果はRBDの有効性とスケーラビリティを強調している。さらなる実験により、バイアスや領域をまたいだ強い一般化と効率が証明された。

関連論文リスト

Meta-Fair: AI-Assisted Fairness Testing of Large Language Models [2.9632404823837777]
公正さは人工知能(AI)システムの開発における中核的な原則である。大規模言語モデル(LLM)におけるフェアネステストへの現在のアプローチは、手動評価、固定テンプレート、決定論、キュレートされたデータセットに依存していることが多い。本研究は,LLMの公正性をテストするための,新しい自動化手法の基盤となることを目的としている。
論文参考訳（メタデータ） (2025-07-03T11:20:59Z)
Evaluating Scoring Bias in LLM-as-a-Judge [8.751901240110888]
大規模言語モデル (LLM) は複雑なタスクの評価に使用される。 LLM-as-a-Judgeには様々なバイアスがあり、判断の公平性と信頼性に悪影響を及ぼす。
論文参考訳（メタデータ） (2025-06-27T15:25:23Z)
Pairwise or Pointwise? Evaluating Feedback Protocols for Bias in LLM-Based Evaluation [57.380464382910375]
フィードバックプロトコルの選択が評価信頼性に大きく影響し,系統的バイアスを生じさせることを示す。特に、ペアワイズ評価プロトコルは、不注意な評価に対してより脆弱であることを示す。
論文参考訳（メタデータ） (2025-04-20T19:05:59Z)
R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。推論駆動プロセスリワードモデリング(R-PRM)を提案する。 R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文参考訳（メタデータ） (2025-03-27T09:23:08Z)
Rethinking Relation Extraction: Beyond Shortcuts to Generalization with a Debiased Benchmark [53.876493664396506]
ベンチマークは、機械学習アルゴリズムのパフォーマンスの評価、比較の促進、優れたソリューションの特定に不可欠である。本稿では,関係抽出タスクにおけるエンティティバイアスの問題に対処する。本稿では,エンティティの代替によって,エンティティ参照と関係型との擬似相関を破る不偏関係抽出ベンチマークDREBを提案する。 DREBの新たなベースラインを確立するために,データレベルとモデルトレーニングレベルを組み合わせたデバイアス手法であるMixDebiasを導入する。
論文参考訳（メタデータ） (2025-01-02T17:01:06Z)
Language Model Preference Evaluation with Multiple Weak Evaluators [78.53743237977677]
GED(Preference Graph Ensemble and Denoise)は、複数のモデルベースの評価器を活用して嗜好グラフを構築する新しいアプローチである。特に,本手法は,評価を統一グラフに集約し,デノナイジングプロセスを適用する2つの主要な段階から構成される。我々は,本枠組みの理論的保証を行い,真理優先構造を回復する上での有効性を示す。
論文参考訳（メタデータ） (2024-10-14T01:57:25Z)
Direct Judgement Preference Optimization [66.83088028268318]
我々は、他のモデルのアウトプットを評価し、批判するために、生成的判断として大きな言語モデル(LLM)を訓練する。我々は,異なるユースケースに対する選好ペアの収集に3つのアプローチを採用し,それぞれが異なる視点から生成判断を改善することを目的としている。提案モデルは,位置や長さの偏りなどの固有バイアスに強く対応し,実践者が指定した評価プロトコルに柔軟に適用し,下流ジェネレータモデルを改善する上で有用な言語フィードバックを提供する。
論文参考訳（メタデータ） (2024-09-23T02:08:20Z)
GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-12-11T12:02:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。