Fugu-MT 論文翻訳(概要): Verdict: A Library for Scaling Judge-Time Compute

論文の概要: Verdict: A Library for Scaling Judge-Time Compute

arxiv url: http://arxiv.org/abs/2502.18018v1
Date: Tue, 25 Feb 2025 09:26:44 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-26 17:42:45.958477
Title: Verdict: A Library for Scaling Judge-Time Compute
Title（参考訳）: Verdict: 判断時間計算をスケールするためのライブラリ
Authors: Nimit Kalra, Leonard Tang,
Abstract要約: Verdictは、自動評価器の精度、信頼性、解釈性を高めるために、判断時間計算をスケールするためのライブラリである。審査員は最先端(SOTA)または近距離(SOTA)のパフォーマンスを達成し、マグニチュードより大きな微調整裁判官を超越する。
参考スコア（独自算出の注目度）: 4.962699700524792
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The use of LLMs as automated judges ("LLM-as-a-judge") is now widespread, yet standard judges suffer from a multitude of reliability issues. To address these challenges, we introduce Verdict, an open-source library for scaling judge-time compute to enhance the accuracy, reliability, and interpretability of automated evaluators. Verdict leverages the composition of modular reasoning units -- such as verification, debate, and aggregation -- and increased inference-time compute to improve LLM judge quality. Across a variety of challenging tasks such as content moderation, fact-checking, and hallucination detection, Verdict judges achieve state-of-the-art (SOTA) or near-SOTA performance, surpassing orders-of-magnitude larger fine-tuned judges, prompted judges, and reasoning models. Ultimately, we hope Verdict serves as a useful framework for researchers and practitioners building scalable, interpretable, and reliable LLM-based evaluators.
Abstract（参考訳）: LLMを自動審査員(LLM-as-a-judge)として使用することは、現在では広く行われているが、標準的な審査員は様々な信頼性の問題に悩まされている。これらの課題に対処するために、自動評価器の精度、信頼性、解釈可能性を高めるために、判断時間計算をスケールするオープンソースのライブラリであるVerdictを紹介した。 Verdictは、検証、議論、集約といったモジュラー推論ユニットの構成を活用し、推論時間計算を増やしてLLMの判断品質を向上させる。コンテンツモデレーション、ファクトチェック、幻覚検出など、さまざまな困難なタスクの中で、Verdictの審査員は最先端のSOTA(State-of-the-art)または近SOTAのパフォーマンスを達成する。最終的には、Verdictがスケーラブルで解釈可能で信頼性の高いLCMベースの評価ツールを構築する研究者や実践者にとって有用なフレームワークになることを願っています。

関連論文リスト

CompassJudger-2: Towards Generalist Judge Model via Verifiable Rewards [72.44810390478229]
CompassJudger-2は、タスク駆動のマルチドメインデータキュレーション戦略によって制限を克服する新しいジェネラリストジャッジモデルである。 CompassJudger-2は、複数の判定と報奨ベンチマークで優れた結果を得る。
論文参考訳（メタデータ） (2025-07-12T01:34:24Z)
Quantitative LLM Judges [48.676042957523045]
本研究では,既存のLLM審査員の評価スコアを,与えられた領域における人間の評価スコアと整合させる定量的LLM判定者を提案する。モデルは、裁判官のテキスト評価とスコアを用いて、原判事のスコアを改善するために訓練される。実験により, 定量的な判断は, ポストホックモデリングにより, 既存の判断の予測力を効果的に向上できることが示された。
論文参考訳（メタデータ） (2025-06-03T14:44:23Z)
Evaluating Judges as Evaluators: The JETTS Benchmark of LLM-as-Judges as Test-Time Scaling Evaluators [66.83088028268318]
本稿では,テスト時間スケーリングベンチマークの判定評価について紹介する。 3つのタスク設定の下で、3つのドメイン(推論、コード生成、命令従)での判定性能を評価する。我々のベンチマークは、審査員が再評価において結果報酬モデルと競合する一方で、ビームサーチにおけるプロセス報酬モデルよりも一貫して悪いことを示している。
論文参考訳（メタデータ） (2025-04-21T17:33:23Z)
JudgeLRM: Large Reasoning Models as a Judge [65.14085339820795]
我々は,Large Language Models (LLMs) の判断が推論能力の強化から真に恩恵を受けるかどうかを考察する。本稿では、強化学習(RL)を用いて学習した判断指向LLMのファミリーであるジャッジLRMを紹介する。
論文参考訳（メタデータ） (2025-03-31T02:18:51Z)
Judge as A Judge: Improving the Evaluation of Retrieval-Augmented Generation through the Judge-Consistency of Large Language Models [68.92020689188887]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) に対する幻覚を緩和する効果を証明している。既存の自動評価メトリクスは、トレーニングと評価の間にRAGモデルによって生成されたアウトプットを正確に評価することはできない。本稿では,RAGモデルのより正確な評価を実現するため,LCMの強化を目的とした判断一貫性(ConsJudge)手法を提案する。
論文参考訳（メタデータ） (2025-02-26T04:50:43Z)
JudgeBlender: Ensembling Judgments for Automatic Relevance Assessment [28.4353755578306]
大規模言語モデル(LLM)は、検索タスクの関連ラベルを生成することを約束している。我々は,より小型のオープンソースモデルを用いて妥当性判断を行うフレームワークであるJiceBlenderを紹介した。
論文参考訳（メタデータ） (2024-12-17T19:04:15Z)
JuStRank: Benchmarking LLM Judges for System Ranking [7.507819077549208]
我々はLLM審査員をシステムランクラーとして大規模に調査した。システムスコアは、複数のシステム出力に対して判定スコアを集約することで生成される。我々の分析は、判断力や偏見を含む判断行動のきめ細かい特徴を提供する。
論文参考訳（メタデータ） (2024-12-12T18:51:13Z)
JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking [81.88787401178378]
本稿では,文書関連性を評価する際に,人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。我々は,推論集約型BRIGHTベンチマークを用いて判定Rankを評価し,第1段階の検索手法よりも性能が大幅に向上したことを示す。さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。
論文参考訳（メタデータ） (2024-10-31T18:43:12Z)
JudgeBench: A Benchmark for Evaluating LLM-based Judges [61.048125269475854]
judgeBenchは、知識、推論、数学、コーディングにまたがる挑戦的な応答ペアに関するLSMベースの判断を評価するためのベンチマークである。審査員、微調整された審査員、マルチエージェントの審査員、報酬モデルに関する包括的な評価は、審査員ベンチが以前のベンチマークよりもかなり大きな課題を課していることを示している。
論文参考訳（メタデータ） (2024-10-16T17:58:19Z)
Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge [84.34545223897578]
多くの領域で優れているにもかかわらず、潜在的な問題は未解決のままであり、その信頼性と実用性の範囲を損なう。提案手法は, LLM-as-a-Judgeにおける各種類のバイアスを定量化し, 解析する自動バイアス定量化フレームワークである。当社の作業は、これらの問題に対処するステークホルダの必要性を強調し、LLM-as-a-Judgeアプリケーションで注意を喚起します。
論文参考訳（メタデータ） (2024-10-03T17:53:30Z)
From Calculation to Adjudication: Examining LLM judges on Mathematical Reasoning Tasks [11.01213914485374]
数学的推論タスクにおいて,大規模言語モデル (LLM) について検討する。本分析により,判定性能と候補モデルタスク性能との間に強い相関関係が明らかになった。本研究では,各モデルのタスク性能などの統計データを用いて,判定性能の予測を行うことが可能であることを示す。
論文参考訳（メタデータ） (2024-09-06T10:09:41Z)
Systematic Evaluation of LLM-as-a-Judge in LLM Alignment Tasks: Explainable Metrics and Diverse Prompt Templates [10.091146498861333]
GPT-4のような商用の大規模言語モデル(LLM)は、近年、異なるアライメントアプローチの評価と比較に使われている。 LLM審査員の信頼性とアライメントを評価・比較・可視化する枠組みを開発した。
論文参考訳（メタデータ） (2024-08-23T11:49:01Z)
JudgeLM: Fine-tuned Large Language Models are Scalable Judges [54.007823006976516]
大規模言語モデル (LLM) を拡張性判断器 (JudgeLM) として微調整し, LLM を効率よく, かつ効率的に評価する手法を提案する。まず, タスクシード, LLM 生成回答, GPT-4 生成判断を含む包括的, 大規模, 高品質なデータセットを提案する。次に、微調整LDMにおける重要なバイアスを判断として分析し、位置バイアス、知識バイアス、フォーマットバイアスとみなす。
論文参考訳（メタデータ） (2023-10-26T17:48:58Z)
Perspectives on Large Language Models for Relevance Judgment [56.935731584323996]
大型言語モデル(LLM)は、関連判断を支援することができると主張している。自動判定が検索システムの評価に確実に利用できるかどうかは不明である。
論文参考訳（メタデータ） (2023-04-13T13:08:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。