Fugu-MT 論文翻訳(概要): Knockout LLM Assessment: Using Large Language Models for Evaluations through Iterative Pairwise Comparisons

論文の概要: Knockout LLM Assessment: Using Large Language Models for Evaluations through Iterative Pairwise Comparisons

arxiv url: http://arxiv.org/abs/2506.03785v1
Date: Wed, 04 Jun 2025 09:46:43 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-05 21:20:14.276505
Title: Knockout LLM Assessment: Using Large Language Models for Evaluations through Iterative Pairwise Comparisons
Title（参考訳）: ノックアウトLLM評価:反復的ペアワイズ比較による大規模言語モデルによる評価
Authors: Isik Baran Sandan, Tu Anh Dinh, Jan Niehues,
Abstract要約: 大規模言語モデル(LLM)は、様々な領域にわたる効果的な評価指標であることが示されている。 Knockout Assessment, LLM-asa judge method using a knockout tournament system with iterationerative pairwise comparisons。
参考スコア（独自算出の注目度）: 13.187011661009459
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have shown to be effective evaluators across various domains such as machine translations or the scientific domain. Current LLM-as-a-Judge approaches rely mostly on individual assessments or a single round of pairwise assessments, preventing the judge LLM from developing a global ranking perspective. To address this, we present Knockout Assessment, an LLM-asa Judge method using a knockout tournament system with iterative pairwise comparisons. Experiments across three LLMs on two datasets show that knockout assessment improves scoring accuracy, increasing Pearson correlation with expert evaluations by 0.07 on average for university-level exam scoring and machine translation evaluations, aligning LLM assessments more closely with human scoring.
Abstract（参考訳）: 大規模言語モデル(LLM)は、機械翻訳や科学領域など、様々な領域で有効な評価器であることが示されている。現在のLLM-as-a-Judgeアプローチは、主に個々の評価や一対一の評価に頼っているため、審査員のLLMがグローバルなランキングの観点での開発を妨げている。そこで本研究では,ノックアウトトーナメントシステムを用いたLCM-asaジャッジ方式であるノックアウトアセスメントを提案する。 2つのデータセット上での3つのLLM実験により、ノックアウト評価は評価精度を向上し、Pearsonと専門家による評価との相関が平均0.07倍に向上し、LLMの評価が人間の評価とより密に一致していることが示されている。

関連論文リスト

Evaluating Scoring Bias in LLM-as-a-Judge [8.751901240110888]
大規模言語モデル (LLM) は複雑なタスクの評価に使用される。 LLM-as-a-Judgeには様々なバイアスがあり、判断の公平性と信頼性に悪影響を及ぼす。
論文参考訳（メタデータ） (2025-06-27T15:25:23Z)
Bayesian Calibration of Win Rate Estimation with LLM Evaluators [20.588104799661014]
本研究では,大言語モデル(LLM)を評価対象として,勝利率推定の精度を向上させる2つの手法を提案する。我々は,ストーリ生成,要約,タスクの指示を含む6つのデータセット上で,我々の手法を実証的に検証した。
論文参考訳（メタデータ） (2024-11-07T04:32:40Z)
CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。 CompassJudger-1は、優れた汎用性を示す汎用LLMである。 textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文参考訳（メタデータ） (2024-10-21T17:56:51Z)
ReIFE: Re-evaluating Instruction-Following Evaluation [105.75525154888655]
本稿では,25基のLDMと15の提案された評価プロトコルを含む,命令の完全なメタ評価について述べる。評価により,高いロバスト性を有する最良性能のLCMと評価プロトコルを同定できる。
論文参考訳（メタデータ） (2024-10-09T17:14:50Z)
Systematic Evaluation of LLM-as-a-Judge in LLM Alignment Tasks: Explainable Metrics and Diverse Prompt Templates [11.948519516797745]
LLM審査員の信頼性とアライメントを評価・比較・可視化するオープンソースフレームワークを開発した。以上の結果から,LLM判定性能に対するプロンプトテンプレートの影響や,LLM判定器とヒト評価器の中間的なアライメントレベルに有意な影響が示唆された。
論文参考訳（メタデータ） (2024-08-23T11:49:01Z)
DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文参考訳（メタデータ） (2024-05-24T08:12:30Z)
Large Language Models are Inconsistent and Biased Evaluators [2.136983452580014]
我々は,Large Language Models (LLMs) が親しみの偏りを示し,評価の歪んだ分布を示すため,評価値の偏りを示すことを示した。また, LLM は不整合性評価器であり, テキスト品質の人間の理解に欠かせない相違を誘発する「サンプル間合意」が低く, 感度が高いことがわかった。
論文参考訳（メタデータ） (2024-05-02T20:42:28Z)
Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価するための自動評価器として有望な能力を示した。 LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。 Pairwise-preference Search (PAIRS) は、LLMを用いた不確実性誘導検索に基づくランクアグリゲーション手法で、局所的にペアワイズ比較を行い、グローバルに候補テキストを効率よくランク付けする。
論文参考訳（メタデータ） (2024-03-25T17:11:28Z)
Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文参考訳（メタデータ） (2023-10-11T16:38:11Z)
LLM Comparative Assessment: Zero-shot NLG Evaluation through Pairwise Comparisons using Large Language Models [55.60306377044225]
大規模言語モデル(LLM)は、様々な自然言語タスクで印象的なゼロショット機能を実現している。本稿では,ゼロショットNLG評価におけるLCMの創発的能力を活用するための2つの選択肢について検討する。 FlanT5 や Llama2-chat のような中規模のオープンソース LLM では、スコアリングよりも比較評価が優れている。
論文参考訳（メタデータ） (2023-07-15T22:02:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。