論文の概要: Mitigating Preference Leakage via Strict Estimator Separation for Normative Generative Ranking
- arxiv url: http://arxiv.org/abs/2602.20800v1
- Date: Tue, 24 Feb 2026 11:38:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.730217
- Title: Mitigating Preference Leakage via Strict Estimator Separation for Normative Generative Ranking
- Title(参考訳): 規範的生成ランク付けのためのStrict Estimator分離による選好漏れの軽減
- Authors: Dalia Nahhas, Xiaohao Cai, Imran Razzak, Shoaib Jameel,
- Abstract要約: 現在の評価は円度と好みの漏れに悩まされている。
我々は, 監視を厳格に分離する漏出のない2Judgeフレームワーク(Judge B)を, 評価(Judge A)から導入する。
以上の結果から, 微妙な文化的嗜好を, 漏れることなく効率の良いランク付けに抽出できることが示唆された。
- 参考スコア(独自算出の注目度): 16.186456141688645
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In Generative Information Retrieval (GenIR), the bottleneck has shifted from generation to the selection of candidates, particularly for normative criteria such as cultural relevance. Current LLM-as-a-Judge evaluations often suffer from circularity and preference leakage, where overlapping supervision and evaluation models inflate performance. We address this by formalising cultural relevance as a within-query ranking task and introducing a leakage-free two-judge framework that strictly separates supervision (Judge B) from evaluation (Judge A). On a new benchmark of 33,052 (NGR-33k) culturally grounded stories, we find that while classical baselines yield only modest gains, a dense bi-encoder distilled from a Judge-B-supervised Cross-Encoder is highly effective. Although the Cross-Encoder provides a strong supervision signal for distillation, the distilled BGE-M3 model substantially outperforms it under leakage-free Judge~A evaluation. We validate our framework on the human-curated Moral Stories dataset, showing strong alignment with human norms. Our results demonstrate that rigorous evaluator separation is a prerequisite for credible GenIR evaluation, proving that subtle cultural preferences can be distilled into efficient rankers without leakage.
- Abstract(参考訳): ジェネレーティブ・インフォメーション・レトリーヴァル(Generative Information Retrieval, ジェネレーティブ・インフォメーション・レトリーヴァル)では、特に文化的関連性などの規範的基準において、ボトルネックが生成から候補の選択へと移行している。
現在のLCM-as-a-Judge評価は、しばしば円度と優先リークに悩まされ、監督モデルと評価モデルが重なると性能が低下する。
本稿では,文化関係を内的ランク付け課題として定式化するとともに,管理を厳格に分離する漏出のない2段階の枠組み(Judge B)を導入し,評価(Judge A)から文化関係を分離することで,この問題に対処する。
33,052 (NGR-33k) の文化的根拠のある新しいベンチマークでは、古典的なベースラインはモデストゲインしか得られないが、ジャッジ・Bが監督するクロスエンコーダから蒸留した密度の高いバイエンコーダは非常に有効であることがわかった。
クロスエンコーダは蒸留のための強力な監視信号を提供するが, 蒸留されたBGE-M3モデルは, 漏れのない判定条件下ではかなり優れていた。
我々は,人為的なモラルストーリーデータセットの枠組みを検証し,人間の規範と強い整合性を示す。
以上の結果から,厳密な評価器分離は信頼性の高いGenIR評価の必須条件であり,微妙な文化的嗜好を漏れなく効率の良いランク付けに抽出できることが証明された。
関連論文リスト
- R-Align: Enhancing Generative Reward Models through Rationale-Centric Meta-Judging [69.96389360650072]
解析精度は, 標準ラベルの精度を超えて, 下流RLHFの結果を高い精度で予測できることが示される。
我々は,金の判断でトレーニングを増強し,合理的アライメントを明示的に監督するR-Alignを提案する。
論文 参考訳(メタデータ) (2026-02-06T15:17:11Z) - Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - RULERS: Locked Rubrics and Evidence-Anchored Scoring for Robust LLM Evaluation [15.787947727055611]
本稿では,自然言語ルーブを実行可能な仕様に変換するコンパイラ・エグゼクタフレームワークであるRULERSを紹介する。
RULERSは、基準をバージョニングされた不変バンドルにコンパイルし、決定論的証拠検証による構造化復号を強制し、軽量なワッサーシュタインベースのポストホックキャリブレーションを適用する。
論文 参考訳(メタデータ) (2026-01-13T15:31:42Z) - LLM-as-a-Judge: Rapid Evaluation of Legal Document Recommendation for Retrieval-Augmented Generation [40.06592175227558]
本稿では,法的な文脈における検索・拡張生成システムの評価に対する原則的アプローチについて検討する。
我々は、クリッペンドルフのαのような従来の合意メトリクスが、AIシステム評価の典型的な歪んだ分布に誤解をもたらす可能性があることを発見した。
本研究は,法的な応用によって要求される精度を維持するための,スケーラブルで費用効果の高い評価への道筋を示唆する。
論文 参考訳(メタデータ) (2025-09-15T19:20:21Z) - UDA: Unsupervised Debiasing Alignment for Pair-wise LLM-as-a-Judge [23.497453639857852]
本研究では,エロ評価システムを動的に調整することで,不一致を解消する枠組みであるUDAを提案する。
UDAは、すべての裁判官のエロ軌道間の分散を最小限にすることを目的として、完全に教師なしの方法で運営されている。
実験の結果、UDA は Judge の標準偏差を 63.4% まで減少させ、人間の判断との平均的相関を 24.7% 向上させることがわかった。
論文 参考訳(メタデータ) (2025-08-13T11:41:01Z) - CompassJudger-2: Towards Generalist Judge Model via Verifiable Rewards [72.44810390478229]
CompassJudger-2は、タスク駆動のマルチドメインデータキュレーション戦略によって制限を克服する新しいジェネラリストジャッジモデルである。
CompassJudger-2は、複数の判定と報奨ベンチマークで優れた結果を得る。
論文 参考訳(メタデータ) (2025-07-12T01:34:24Z) - J4R: Learning to Judge with Equivalent Initial State Group Relative Policy Optimization [69.23273504123941]
私たちは、より複雑な評価設定で生じる位置バイアスに対して堅牢であるように、裁判官を訓練します。
我々はReasoningJudgeBenchというベンチマークを紹介します。
EIS-GRPOで訓練を受けた7B判事であるReasoning判事(J4R)は、GPT-4oを6.7%、そして9%で上回ります。
論文 参考訳(メタデータ) (2025-05-19T16:50:35Z) - Language Model Preference Evaluation with Multiple Weak Evaluators [89.90733463933431]
PGEDは,複数のモデルに基づく評価器を用いて嗜好グラフを構築し,非循環的非競合性評価結果に対してこれらのグラフをアンサンブルし,デノテーズする手法である。
1)評価のためのモデルランキング、2)テスト時間スケーリングのための応答選択、3)モデル微調整のためのデータ選択である。
論文 参考訳(メタデータ) (2024-10-14T01:57:25Z) - Unsupervised Learning of Debiased Representations with Pseudo-Attributes [85.5691102676175]
教師なし方式で,単純かつ効果的な脱バイアス手法を提案する。
特徴埋め込み空間上でクラスタリングを行い、クラスタリング結果を利用して疑似属性を識別する。
次に,非偏り表現を学習するために,クラスタベースの新しい重み付け手法を用いる。
論文 参考訳(メタデータ) (2021-08-06T05:20:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。