論文の概要: No-Human in the Loop: Agentic Evaluation at Scale for Recommendation
- arxiv url: http://arxiv.org/abs/2511.03051v1
- Date: Tue, 04 Nov 2025 22:49:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.267006
- Title: No-Human in the Loop: Agentic Evaluation at Scale for Recommendation
- Title(参考訳): No-Human in the Loop: Agentic Evaluation at Scale for Recommendation
- Authors: Tao Zhang, Kehui Yao, Luyi Ma, Jiao Chen, Reza Yousefi Maragheh, Kai Zhao, Jianpeng Xu, Evren Korpeoglu, Sushant Kumar, Kannan Achan,
- Abstract要約: 大規模言語モデル(LLM)を判断として評価することは、スケーラブルで信頼性の高い評価パイプラインを構築する上でますます重要になっている。
我々は、GPT、Gemini、Claude、Llamaを含む36のLLMを体系的に比較する大規模なベンチマーク研究であるScalingEvalを紹介する。
当社のマルチエージェントフレームワークは、パターン監査を集約し、スケーラブルな多数決投票を通じて、地味なラベルにコードを発行します。
- 参考スコア(独自算出の注目度): 11.764010898952677
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Evaluating large language models (LLMs) as judges is increasingly critical for building scalable and trustworthy evaluation pipelines. We present ScalingEval, a large-scale benchmarking study that systematically compares 36 LLMs, including GPT, Gemini, Claude, and Llama, across multiple product categories using a consensus-driven evaluation protocol. Our multi-agent framework aggregates pattern audits and issue codes into ground-truth labels via scalable majority voting, enabling reproducible comparison of LLM evaluators without human annotation. Applied to large-scale complementary-item recommendation, the benchmark reports four key findings: (i) Anthropic Claude 3.5 Sonnet achieves the highest decision confidence; (ii) Gemini 1.5 Pro offers the best overall performance across categories; (iii) GPT-4o provides the most favorable latency-accuracy-cost tradeoff; and (iv) GPT-OSS 20B leads among open-source models. Category-level analysis shows strong consensus in structured domains (Electronics, Sports) but persistent disagreement in lifestyle categories (Clothing, Food). These results establish ScalingEval as a reproducible benchmark and evaluation protocol for LLMs as judges, with actionable guidance on scaling, reliability, and model family tradeoffs.
- Abstract(参考訳): 大規模言語モデル(LLM)を判断として評価することは、スケーラブルで信頼性の高い評価パイプラインを構築する上でますます重要になっている。
我々は、GPT、Gemini、Claude、Llamaを含む36のLLMをコンセンサス駆動評価プロトコルを用いて、複数の製品カテゴリで体系的に比較する大規模なベンチマーク研究であるScalingEvalを紹介する。
我々のマルチエージェントフレームワークは、スケーラブルな多数決投票を通じて、パターン監査を集約し、基幹ラベルにコードを発行し、人間のアノテーションを使わずにLLM評価器の再現可能な比較を可能にする。
大規模な補完-イテムレコメンデーションに適用すると、ベンチマークは4つの重要な発見を報告している。
一 人類学的クロード3.5ソネットが最高決定の信任を得ること。
(ii)Gemini 1.5 Proは、カテゴリ間で最高の全体的なパフォーマンスを提供する。
三) GPT-4oは、最も有利な遅延精度コストトレードオフを提供する。
(4) GPT-OSS 20Bはオープンソースモデルでリードしている。
カテゴリーレベルの分析は、構造化ドメイン(エレクトロニック、スポーツ)では強いコンセンサスを示すが、ライフスタイルカテゴリー(クロシング、フード)では絶え間ない意見の不一致を示す。
これらの結果から,LCMの再現可能なベンチマークおよび評価プロトコルとしてScalingEvalが確立され,スケーリング,信頼性,モデル家族間のトレードオフに関する実用的なガイダンスが得られた。
関連論文リスト
- Reliable Decision Support with LLMs: A Framework for Evaluating Consistency in Binary Text Classification Applications [0.7124971549479361]
本研究では,大言語モデル(LLM)のバイナリテキスト分類における一貫性を評価するフレームワークを提案する。
我々は,サンプルサイズ要件を定め,不適切な応答の指標を開発し,レータ内およびレータ間信頼性を評価する。
論文 参考訳(メタデータ) (2025-05-20T21:12:58Z) - Pairwise or Pointwise? Evaluating Feedback Protocols for Bias in LLM-Based Evaluation [57.380464382910375]
評価のためのフィードバックプロトコルの選択は,評価信頼性に大きく影響し,系統的なバイアスを生じさせることを示す。
ジェネレータモデルは、気を散らす機能を埋め込むことで好みをひっくり返すことができる。
我々は,データセットの特徴と評価目標に基づくフィードバックプロトコルの選択を推奨する。
論文 参考訳(メタデータ) (2025-04-20T19:05:59Z) - GeoBenchX: Benchmarking LLMs in Agent Solving Multistep Geospatial Tasks [0.11458853556386796]
本稿では,大規模言語モデル(LLM)のツールコール能力を評価するためのベンチマークを確立する。
我々は,23の地理空間機能を備えた簡易なツールコールエージェントを用いて,8種類の商用LCM (Claude Sonnet 3.5, 4, Claude Haiku 3.5, Gemini 2.0 Flash, Gemini 2.5 Pro Preview, GPT-4o, GPT-4.1, o4-mini) を評価した。
OpenAIのGPT-4.1、GPT-4o、GoogleのGemini 2.5 Pro Previewはそれほど遅れていないが、最後の2つはより効率的である。
論文 参考訳(メタデータ) (2025-03-23T16:20:14Z) - Language Model Preference Evaluation with Multiple Weak Evaluators [89.90733463933431]
PGEDは,複数のモデルに基づく評価器を用いて嗜好グラフを構築し,非循環的非競合性評価結果に対してこれらのグラフをアンサンブルし,デノテーズする手法である。
1)評価のためのモデルランキング、2)テスト時間スケーリングのための応答選択、3)モデル微調整のためのデータ選択である。
論文 参考訳(メタデータ) (2024-10-14T01:57:25Z) - Direct Judgement Preference Optimization [79.54459973726405]
我々は、他のモデルのアウトプットを評価し、批判するために、生成的判断として大きな言語モデル(LLM)を訓練する。
我々は,異なるユースケースに対する選好ペアの収集に3つのアプローチを採用し,それぞれが異なる視点から生成判断を改善することを目的としている。
提案モデルは,位置や長さの偏りなどの固有バイアスに強く対応し,実践者が指定した評価プロトコルに柔軟に適用し,下流ジェネレータモデルを改善する上で有用な言語フィードバックを提供する。
論文 参考訳(メタデータ) (2024-09-23T02:08:20Z) - Split and Merge: Aligning Position Biases in LLM-based Evaluators [22.265542509143756]
PortIAは、人間の比較戦略を模倣して位置バイアスを校正するアライメントベースのシステムである。
その結果, Portia はテスト対象のモデルと比較形態の整合性を著しく向上させることがわかった。
GPT-4モデルにおける位置バイアスの約80%を修正し、一貫性を98%まで高める。
論文 参考訳(メタデータ) (2023-09-29T14:38:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。