論文の概要: PeerRank: Autonomous LLM Evaluation Through Web-Grounded, Bias-Controlled Peer Review
- arxiv url: http://arxiv.org/abs/2602.02589v1
- Date: Sun, 01 Feb 2026 06:01:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:14.957971
- Title: PeerRank: Autonomous LLM Evaluation Through Web-Grounded, Bias-Controlled Peer Review
- Title(参考訳): PeerRank: WebGrounded, Bias-Controlled Peer Reviewによる自律LLM評価
- Authors: Yanki Margalit, Erni Avram, Ran Taig, Oded Margalit, Nurit Cohen-Inger,
- Abstract要約: 完全自律的なエンドツーエンド評価フレームワークであるPeerRankを紹介します。
モデルは評価タスクを生成し、カテゴリスコープによるライブWebグラウンドで答える。
PeerRankは評価を、各モデルがタスクデザイナ、応答者、評価者として対称に参加するマルチエージェントプロセスとして扱う。
- 参考スコア(独自算出の注目度): 1.2178992475191557
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating large language models typically relies on human-authored benchmarks, reference answers, and human or single-model judgments, approaches that scale poorly, become quickly outdated, and mismatch open-world deployments that depend on web retrieval and synthesis. We introduce PeerRank, a fully autonomous end-to-end evaluation framework in which models generate evaluation tasks, answer them with category-scoped live web grounding, judge peer responses and aggregate dense peer assessments into relative performance estimates, without human supervision or gold references. PeerRank treats evaluation as a multi-agent process where each model participates symmetrically as task designer, respondent, and evaluator, while removing biased judgments. In a large-scale study over 12 commercially available models and 420 autonomously generated questions, PeerRank produces stable, discriminative rankings and reveals measurable identity and presentation biases. Rankings are robust, and mean peer scores agree with Elo. We further validate PeerRank on TruthfulQA and GSM8K, where peer scores correlate with objective accuracy. Together, these results suggest that bias-aware peer evaluation with selective web-grounded answering can scale open-world LLM assessment beyond static and human curated benchmarks.
- Abstract(参考訳): 大規模な言語モデルを評価するには、典型的には、人間が承認したベンチマーク、参照回答、人間または単一モデルによる判断、スケールの悪いアプローチ、すぐに時代遅れになるアプローチ、Web検索と合成に依存するオープンワールドデプロイメントのミスマッチなどに依存する。
PeerRankは、モデルが評価タスクを生成し、カテゴリスコープのライブWebグラウンドで回答し、ピア応答を判断し、密なピアアセスメントを人間による監督や金の参照なしに相対的なパフォーマンス見積に集約する完全に自律的なエンド・ツー・エンド評価フレームワークである。
PeerRank氏は評価をマルチエージェントプロセスとして扱い、各モデルをタスクデザイナ、応答者、評価者として対称に参加し、バイアスのある判断を除去する。
12の市販モデルと420の自律的な質問に対する大規模な調査では、PeerRankは安定した差別的なランキングを生成し、測定可能なアイデンティティとプレゼンテーションバイアスを明らかにしている。
ランキングは堅牢で、平均的なピアスコアはEloと一致します。
また,PierRank on TruthfulQA and GSM8K, where peer scorescorrelation with objective accuracy。
これらの結果から,静的および人為的ベンチマークを超越したオープンワールドLLM評価を,選択的なWebグラウンド回答による偏見を考慮したピア評価により拡張できることが示唆された。
関連論文リスト
- Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。
提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。
実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文 参考訳(メタデータ) (2025-05-28T14:55:33Z) - SCAN: Structured Capability Assessment and Navigation for LLMs [54.54085382131134]
textbfSCAN (Structured Capability Assessment and Navigation) は、大規模言語モデルの詳細な特徴付けを可能にする実用的なフレームワークである。
SCANには4つの重要なコンポーネントが含まれている。
TaxBuilder – クエリから機能表示タグを抽出して階層的な分類構造を構築する。
RealMixは、各機能タグに対する十分な評価データを保証するクエリ合成とフィルタリングのメカニズムである。
PC$2$ベースのLCM-as-a-Judge法は従来のLCM-as-a-Judge法と比較して大幅に精度が向上する
論文 参考訳(メタデータ) (2025-05-10T16:52:40Z) - HREF: Human Response-Guided Evaluation of Instruction Following in Language Models [61.273153125847166]
我々は新しい評価ベンチマークHREF(Human Response-Guided Evaluation of Instruction following)を開発した。
HREFは信頼性の高い評価を提供するだけでなく、個々のタスクのパフォーマンスを強調し、汚染を受けない。
本稿では,評価セットのサイズ,判断モデル,ベースラインモデル,プロンプトテンプレートなど,HREFにおける鍵設計選択の影響について検討する。
論文 参考訳(メタデータ) (2024-12-20T03:26:47Z) - CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。
CompassJudger-1は、優れた汎用性を示す汎用LLMである。
textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文 参考訳(メタデータ) (2024-10-21T17:56:51Z) - PRD: Peer Rank and Discussion Improve Large Language Model based Evaluations [10.709365940160685]
現代の大規模言語モデル(LLM)は、自動評価と比較が難しい。
本稿では,全ての解答対に対するLLMのペアワイズ選好を考慮に入れたピアランク(PR)アルゴリズムを提案する。
我々のアプローチは高い精度を実現し、人間の判断とよく一致していることがわかりました。
論文 参考訳(メタデータ) (2023-07-06T04:05:44Z) - Large Language Models are not Fair Evaluators [60.27164804083752]
候補回答の品質ランキングは,文脈の出現順序を変えることで容易にハックできることがわかった。
この操作により、評価結果をスキューし、一方のモデルを他方よりもかなり優れているようにすることができる。
この問題を緩和するための3つのシンプルかつ効果的な戦略を持つフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T07:41:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。