論文の概要: RubricBench: Aligning Model-Generated Rubrics with Human Standards
- arxiv url: http://arxiv.org/abs/2603.01562v1
- Date: Mon, 02 Mar 2026 07:39:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.741983
- Title: RubricBench: Aligning Model-Generated Rubrics with Human Standards
- Title(参考訳): RubricBench: 人間の基準によるモデル生成ルーブリックの調整
- Authors: Qiyuan Zhang, Junyi Zhou, Yufei Wang, Fuyuan Lyu, Yidong Ming, Can Xu, Qingfeng Sun, Kai Zheng, Peng Kang, Xue Liu, Chen Ma,
- Abstract要約: 逆モデル(Reward Model)は、単純な完了から、表面レベルのバイアスを軽減するために、複雑で高度な生成へと移行している。
既存のベンチマークには、差別的な複雑さと厳密な分析に必要な地味なアノテーションの両方が欠けている。
本稿では,ブルリック評価の信頼性を評価するために特別に設計された1,147対比較ベンチマークを提案する。
- 参考スコア(独自算出の注目度): 37.33662546555801
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Model (LLM) alignment evolves from simple completions to complex, highly sophisticated generation, Reward Models are increasingly shifting toward rubric-guided evaluation to mitigate surface-level biases. However, the community lacks a unified benchmark to assess this evaluation paradigm, as existing benchmarks lack both the discriminative complexity and the ground-truth rubric annotations required for rigorous analysis. To bridge this gap, we introduce RubricBench, a curated benchmark with 1,147 pairwise comparisons specifically designed to assess the reliability of rubric-based evaluation. Our construction employs a multi-dimensional filtration pipeline to target hard samples featuring nuanced input complexity and misleading surface bias, augmenting each with expert-annotated, atomic rubrics derived strictly from instructions. Comprehensive experiments reveal a substantial capability gap between human-annotated and model-generated rubrics, indicating that even state-of-the-art models struggle to autonomously specify valid evaluation criteria, lagging considerably behind human-guided performance.
- Abstract(参考訳): 大規模言語モデル(LLM)のアライメントが単純な補完から複雑で高度な生成へと進化するにつれ、Reward Modelsは、表面レベルのバイアスを軽減するためにルーリック誘導評価へとシフトしつつある。
しかし、既存のベンチマークには差別的な複雑さと厳密な分析に必要な地味なルーブリックアノテーションの両方が欠けているため、コミュニティはこの評価パラダイムを評価するための統一されたベンチマークを欠いている。
このギャップを埋めるために,ルーブリックベンチ (RubricBench) を導入し, ルーブリック評価の信頼性を評価するために, 1,147 対比較を行った。
筆者らは多次元濾過パイプラインを用いて,入力の複雑度と表面偏差の誤認を特徴とする硬質試料をターゲットとし,それぞれに指示から厳密に派生した専門的注釈付き原子潤滑剤を添加した。
総合的な実験では、人間の注釈付けとモデル生成のルーブリックの間にはかなりの能力ギャップがあることが示され、最先端のモデルでさえ、有効な評価基準を自律的に特定するのに苦労し、人間の指導による性能よりもかなり遅れていることを示している。
関連論文リスト
- DREAM: Deep Research Evaluation with Agentic Metrics [21.555357444628044]
本稿では,DREAM(Deep Research Evaluation with Agentic Metrics)を提案する。
DREAM構造評価は、クエリ非依存のメトリクスとツール呼び出しエージェントが生成する適応的なメトリクスを組み合わせた評価プロトコルを用いて行われる。
制御された評価は、DREAMが既存のベンチマークよりも事実や時間的劣化にかなり敏感であることを示している。
論文 参考訳(メタデータ) (2026-02-21T19:14:31Z) - [Re] Benchmarking LLM Capabilities in Negotiation through Scoreable Games [0.0]
大規模言語モデル(LLM)はマルチエージェントネゴシエーションタスクにおいて大きな可能性を示す。
本研究では,Scoreable Games に基づくベンチマークの徹底性について検討する。
本結果は,モデル比較評価における文脈の重要性を強調した。
論文 参考訳(メタデータ) (2026-02-20T14:11:31Z) - Deconstructing Instruction-Following: A New Benchmark for Granular Evaluation of Large Language Model Instruction Compliance Abilities [2.9203730377983654]
既存のベンチマークでは、実際の使用を反映したり、コンプライアンスをタスクの成功から分離することができない。
アプリケーション指向の生成制約を最大20個まで含む動的に生成されたデータセットを使用するモジュール型フレームワークであるMOSAICを紹介した。
コンプライアンスはモノリシックな機能ではなく、制約タイプ、量、位置によって大きく異なります。
論文 参考訳(メタデータ) (2026-01-26T15:02:15Z) - Procrustean Bed for AI-Driven Retrosynthesis: A Unified Framework for Reproducible Evaluation [0.0]
RetroCastは、異種モデルの出力を共通スキーマに標準化する統合評価スイートである。
我々は、新しい標準ベンチマークスイートを用いて、検索ベースおよびシーケンスベースの主要なアルゴリズムを評価する。
論文 参考訳(メタデータ) (2025-12-08T01:26:39Z) - Curse of Knowledge: When Complex Evaluation Context Benefits yet Biases LLM Judges [72.3356133063925]
審査員としての大規模言語モデル(LLM)のパラダイムはスケーラブルなソリューションとして登場したが、以前の作業は主に単純な設定に焦点を当てていた。
我々の詳細な分析は、評価信号の精度と妥当性を向上させるための重要な洞察を提供する。
論文 参考訳(メタデータ) (2025-09-03T15:48:33Z) - RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。
提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。
実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文 参考訳(メタデータ) (2025-05-28T14:55:33Z) - T2I-Eval-R1: Reinforcement Learning-Driven Reasoning for Interpretable Text-to-Image Evaluation [60.620408007636016]
T2I-Eval-R1は,大まかな品質スコアのみを用いて,オープンソースのMLLMを訓練する新しい強化学習フレームワークである。
提案手法では,グループ相対政策最適化を命令調整プロセスに統合し,スカラースコアと解釈可能な推論チェーンの両方を生成する。
論文 参考訳(メタデータ) (2025-05-23T13:44:59Z) - Rethinking Relation Extraction: Beyond Shortcuts to Generalization with a Debiased Benchmark [53.876493664396506]
ベンチマークは、機械学習アルゴリズムのパフォーマンスの評価、比較の促進、優れたソリューションの特定に不可欠である。
本稿では,関係抽出タスクにおけるエンティティバイアスの問題に対処する。
本稿では,エンティティの代替によって,エンティティ参照と関係型との擬似相関を破る不偏関係抽出ベンチマークDREBを提案する。
DREBの新たなベースラインを確立するために,データレベルとモデルトレーニングレベルを組み合わせたデバイアス手法であるMixDebiasを導入する。
論文 参考訳(メタデータ) (2025-01-02T17:01:06Z) - A Backdoor-based Explainable AI Benchmark for High Fidelity Evaluation of Attributions [60.06461883533697]
まず、属性手法の信頼性ベンチマークが満たすであろう信頼度基準のセットを同定する。
次に、望ましい忠実度基準に準拠したBackdoorベースのeXplainable AIベンチマーク(BackX)を紹介します。
我々の分析はまた、属性を利用して神経トロイの木馬を守るための洞察を提供する。
論文 参考訳(メタデータ) (2024-05-02T13:48:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。