論文の概要: Agent-as-a-Judge
- arxiv url: http://arxiv.org/abs/2601.05111v1
- Date: Thu, 08 Jan 2026 16:58:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.292597
- Title: Agent-as-a-Judge
- Title(参考訳): エージェント・アズ・ア・ジャッジ
- Authors: Runyang You, Hongru Cai, Caiqi Zhang, Qiancheng Xu, Meng Liu, Tiezheng Yu, Yongqi Li, Wenjie Li,
- Abstract要約: LLM-as-a-Judgeは、スケーラブルな評価に大規模言語モデルを活用することで、AI評価に革命をもたらした。
評価が複雑化し、専門化され、多段階化されるにつれて、LLM-as-a-Judgeの信頼性は、固有のバイアス、浅いシングルパス推論、現実世界の観測に対する評価の欠如によって制約されている。
これはエージェント・アズ・ア・ジャッジ(Agen-as-a-Judge)への移行を触媒し、エージェント・ジャッジは計画、ツール強化された検証、マルチエージェント・コラボレーション、永続メモリを採用し、より堅牢で検証可能な、ニュアンスな評価を可能にする。
- 参考スコア(独自算出の注目度): 20.902198303020693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-as-a-Judge has revolutionized AI evaluation by leveraging large language models for scalable assessments. However, as evaluands become increasingly complex, specialized, and multi-step, the reliability of LLM-as-a-Judge has become constrained by inherent biases, shallow single-pass reasoning, and the inability to verify assessments against real-world observations. This has catalyzed the transition to Agent-as-a-Judge, where agentic judges employ planning, tool-augmented verification, multi-agent collaboration, and persistent memory to enable more robust, verifiable, and nuanced evaluations. Despite the rapid proliferation of agentic evaluation systems, the field lacks a unified framework to navigate this shifting landscape. To bridge this gap, we present the first comprehensive survey tracing this evolution. Specifically, we identify key dimensions that characterize this paradigm shift and establish a developmental taxonomy. We organize core methodologies and survey applications across general and professional domains. Furthermore, we analyze frontier challenges and identify promising research directions, ultimately providing a clear roadmap for the next generation of agentic evaluation.
- Abstract(参考訳): LLM-as-a-Judgeは、スケーラブルな評価に大規模言語モデルを活用することで、AI評価に革命をもたらした。
しかし、評価が複雑化し、専門化され、多段階化されるにつれて、LLM-as-a-Judgeの信頼性は、固有のバイアス、浅いシングルパス推論、実世界の観測に対する評価の検証ができないことによって制約されている。
これはエージェント・アズ・ア・ジャッジ(Agen-as-a-Judge)への移行を触媒し、エージェント・ジャッジは計画、ツール強化された検証、マルチエージェント・コラボレーション、永続メモリを採用し、より堅牢で検証可能な、ニュアンスな評価を可能にする。
エージェント評価システムの急速な普及にもかかわらず、このシフトする風景をナビゲートするための統一的な枠組みが欠如している。
このギャップを埋めるために、私たちはこの進化を追跡する最初の総合的な調査を示す。
具体的には、このパラダイムシフトを特徴付ける重要な次元を特定し、発達的分類を確立します。
コア方法論を整理し、一般分野と専門分野にまたがってアプリケーションを調査する。
さらに、我々はフロンティアの課題を分析し、将来的な研究の方向性を特定し、最終的に次世代のエージェント評価のための明確なロードマップを提供する。
関連論文リスト
- Towards Self-Evolving Benchmarks: Synthesizing Agent Trajectories via Test-Time Exploration under Validate-by-Reproduce Paradigm [60.36837655498119]
本稿では,トラジェクトリをベースとしたエージェント・ベンチマーク・複雑度進化フレームワークを提案する。
このフレームワークは、既存のベンチマークから元のタスクを受け取り、エージェントがそれをより難しい新しいタスクに進化させるよう促す。
GAIAベンチマークの実験では、TRACEフレームワークはタスクの複雑さを継続的に向上し、正確性の信頼性を向上させる。
論文 参考訳(メタデータ) (2025-10-01T01:52:52Z) - When AIs Judge AIs: The Rise of Agent-as-a-Judge Evaluation for LLMs [8.575522204707958]
大規模言語モデル(LLM)は能力と自律性が向上し、特にオープンで複雑なタスクにおいて、アウトプットの評価が重要なボトルネックとなっている。
新たなパラダイムが生まれつつある。AIエージェントを評価対象として使用することだ。
本稿では,エージェント・アズ・ア・ジャッジの概念を定義し,単一モデル審査員から動的マルチエージェント・ディスカッション・フレームワークへの進化を辿り,その強みと欠点を批判的に検証する。
論文 参考訳(メタデータ) (2025-08-05T01:42:25Z) - Toward Generalizable Evaluation in the LLM Era: A Survey Beyond Benchmarks [229.73714829399802]
この調査は、大規模言語モデルの台頭が評価に役立っている中核的な課題を調査する。
i) タスク固有のものから能力に基づく評価へと、知識、推論、指示に従うこと、マルチモーダル理解、安全性といったコア能力に関するベンチマークを再編成する。
この問題と、上記の2つのトランジションの中核的な課題を、メソッド、データセット、評価器、メトリクスの観点から検討する。
論文 参考訳(メタデータ) (2025-04-26T07:48:52Z) - Survey on Evaluation of LLM-based Agents [28.91672694491855]
LLMベースのエージェントの出現は、AIのパラダイムシフトを表している。
本稿では,これらのエージェントに対する評価手法に関する総合的な調査を初めて実施する。
論文 参考訳(メタデータ) (2025-03-20T17:59:23Z) - Survey on AI-Generated Media Detection: From Non-MLLM to MLLM [51.91311158085973]
AI生成メディアを検出する方法は急速に進化してきた。
MLLMに基づく汎用検出器は、信頼性検証、説明可能性、ローカライゼーション機能を統合する。
倫理的・セキュリティ的な配慮が、重要な世界的な懸念として浮上している。
論文 参考訳(メタデータ) (2025-02-07T12:18:20Z) - AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [74.16170899755281]
本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
AgentBoardは、インクリメンタルな進歩と包括的な評価ツールキットをキャプチャする、きめ細かい進捗率のメトリクスを提供する。
これはLLMエージェントの能力と限界に光を当てるだけでなく、その性能の解釈可能性も最前線に広める。
論文 参考訳(メタデータ) (2024-01-24T01:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。