Fugu-MT 論文翻訳(概要): Benchmarking LLM-as-a-Judge for Long-Form Output Evaluation

論文の概要: Benchmarking LLM-as-a-Judge for Long-Form Output Evaluation

arxiv url: http://arxiv.org/abs/2606.01629v1
Date: Mon, 01 Jun 2026 03:25:34 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-02 21:34:29.89991
Title: Benchmarking LLM-as-a-Judge for Long-Form Output Evaluation
Title（参考訳）: 長期出力評価のためのLCM-as-a-Judgeのベンチマーク
Authors: Junjie Chen, Yuxi Dong, Haitao Li, Weihang Su, Yujia Zhou, Min Zhang, Yiqun Liu, Qinyao Ai,
Abstract要約: 大規模言語モデル(LLM)は、長文生成にますます使われている。 LLMs-as-a-judgeは、人間の評価に代わるスケーラブルな代替手段を提供する。既存のメタ評価ベンチマークは、主にショートフォーム出力に焦点を当てている。
参考スコア（独自算出の注目度）: 25.671442059101636
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As large language models (LLMs) are increasingly used for long-form generation, reliably evaluating long-form outputs has become a critical challenge. LLM-as-a-judge offers a scalable alternative to human evaluation, yet its reliability in long-form output evaluation remains underexamined: existing meta-evaluation benchmarks focus mainly on short-form outputs. Compared with short-form evaluation, long-form evaluation is not merely a matter of output length; it often requires judges to handle more complex document-level demands. In this work, we introduce LongJudgeBench, a comprehensive benchmark for evaluating LLM judges on long-form outputs across diverse real-world scenarios and judging protocols. We systematically evaluate a broad range of LLM judges, covering multiple base models and judging settings. Our results reveal a substantial reliability gap: current LLM judges remain unstable across scenarios, and rubrics or references are helpful but not always sufficient. We hope LongJudgeBench will support future research on more robust, context-aware, and human-aligned LLM-as-a-judge methods. Our code is available at https://anonymous.4open.science/r/LongJudgeBench-F782.
Abstract（参考訳）: 大規模言語モデル (LLM) が長文生成にますます使われるようになるにつれて、長文出力を確実に評価することが重要な課題となっている。 LLM-as-a-judgeは、人間の評価に代わるスケーラブルな代替手段を提供するが、長文出力評価の信頼性は依然として過小評価されている。ショートフォーム評価と比較すると、ロングフォーム評価は単なる出力長の問題ではない。本稿では,LongJudgeBenchについて紹介する。LongJudgeBenchは,LLM審査員を様々な実世界のシナリオや判断プロトコルの長大なアウトプットで評価するための総合ベンチマークである。我々は,LLM審査員の幅広い範囲を体系的に評価し,複数のベースモデルを網羅し,設定を判断する。現在のLCMの判断は,シナリオ全体にわたって不安定であり,ルーリックや参照は有用だが必ずしも十分ではない。今後LongJudgeBenchは、より堅牢で、コンテキスト対応で、人間対応のLCM-as-a-judgeメソッドに関する研究をサポートすることを期待しています。私たちのコードはhttps://anonymous.4open.science/r/LongJudgeBench-F782で公開されています。

関連論文リスト

VideoJudge: Bootstrapping Enables Scalable Supervision of MLLM-as-a-Judge for Video Understanding [57.15309719147799]
ビデオ理解モデルから出力を評価するための3Bおよび7BサイズのMLLM判定器であるVideoJudgeを紹介する。 VideoJudgeのトレーニングには、ジェネレータと評価器の相互作用に基づいてレシピを構築します。 4つのメタ評価ベンチマークのうち3つで、VideoJudge-7BはMLLMの判断基準を大きく上回っている。
論文参考訳（メタデータ） (2025-09-25T19:22:57Z)
MiniLongBench: The Low-cost Long Context Understanding Benchmark for Large Language Models [52.60063131713119]
長期文脈理解(Long Context Understanding、LCU)は、現在の大言語モデル(LLM)における探索の重要な領域である。 LLMの既存のLCUベンチマークは、しばしば非常に高い評価コストをもたらす。本稿では,スパース情報特性を持つ長文データに適した簡潔なデータ圧縮手法を提案する。
論文参考訳（メタデータ） (2025-05-26T13:21:18Z)
100-LongBench: Are de facto Long-Context Benchmarks Literally Evaluating Long-Context Ability? [28.694112253150983]
リアルタイムベースの長期コンテキスト評価ベンチマークには2つの大きな欠点がある。 LongBenchのようなベンチマークは、しばしばモデルのベースライン能力とロングコンテキストのパフォーマンスを分離するための適切なメトリクスを提供しない。長さ制御可能な長文ベンチマークと,ベースライン知識を真の長文能力から切り離す新しいメトリクスを導入する。
論文参考訳（メタデータ） (2025-05-25T19:58:31Z)
From Generation to Judgment: Opportunities and Challenges of LLM-as-a-judge [43.278175460454975]
人工知能(AI)と自然言語処理(NLP)において、長い間、評価と評価が重要な課題であった。大規模言語モデル(LLM)の最近の進歩は"LLM-as-a-judge"パラダイムを刺激している。 LLMは、さまざまな機械学習評価シナリオのスコア付け、ランキング、選択を行うために活用される。
論文参考訳（メタデータ） (2024-11-25T17:28:44Z)
JudgeBench: A Benchmark for Evaluating LLM-based Judges [61.048125269475854]
judgeBenchは、知識、推論、数学、コーディングにまたがる挑戦的な応答ペアに関するLSMベースの判断を評価するためのベンチマークである。審査員、微調整された審査員、マルチエージェントの審査員、報酬モデルに関する包括的な評価は、審査員ベンチが以前のベンチマークよりもかなり大きな課題を課していることを示している。
論文参考訳（メタデータ） (2024-10-16T17:58:19Z)
Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。 Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。 Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文参考訳（メタデータ） (2024-04-09T17:30:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。