論文の概要: JudgeAgent: Dynamically Evaluate LLMs with Agent-as-Interviewer
- arxiv url: http://arxiv.org/abs/2509.02097v1
- Date: Tue, 02 Sep 2025 08:52:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.967957
- Title: JudgeAgent: Dynamically Evaluate LLMs with Agent-as-Interviewer
- Title(参考訳): judgeAgent: Agent-as-InterviewerによるLCMの動的評価
- Authors: Zhichao Shi, Xuhui Jiang, Chengjin Xu, Cangli Yao, Zhenxin Huang, Shengjie Ma, Yinghan Shen, Yuanzhuo Wang,
- Abstract要約: judgeAgentは、新しいインタビュアースタイル評価パラダイムに基づく知識ターゲット適応型動的評価フレームワークである。
ベンチマークグレーディング、インタラクティブ拡張、評価フィードバックからなる包括的な評価アプローチを採用している。
知識駆動データ合成と目標適応的難易度調整法を利用して、拡張テストを行い、正確かつ効果的な評価結果を提供する。
- 参考スコア(独自算出の注目度): 15.508539136746096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating the capabilities of large language models (LLMs) is an essential step to ensure the successful application of LLMs across various domains. The current evaluation of LLMs is based on a paradigm that involves querying them with predefined question sets and assessing their outputs. This paradigm offers controllable processes and simplicity, but faces challenges such as limited interaction with targets, insufficient difficulty control, and difficulties in verifying the validity of evaluation results, making it hard to precisely determine the knowledge and capability boundaries of target models. To address these challenges, we propose JudgeAgent, a knowledge-target adaptive dynamic evaluation framework based on a new interviewer-style evaluation paradigm. JudgeAgent employs a comprehensive evaluation approach consisting of benchmark grading, interactive extension, and evaluation feedback. It utilizes knowledge-driven data synthesis and target-adaptive difficulty adjustment methods to conduct extended testing, providing accurate and effective evaluation results. We also introduce a novel insight into validating evaluation methods, demonstrating the effectiveness of JudgeAgent and its dynamic evaluation paradigm through extensive experiments.
- Abstract(参考訳): 大規模言語モデル(LLM)の能力を評価することは、様々な領域にまたがってLLMを確実に適用するための重要なステップである。
LLMの現在の評価は、事前に定義された質問セットでそれらをクエリし、出力を評価するパラダイムに基づいている。
このパラダイムは、制御可能なプロセスとシンプルさを提供するが、目標との限られた相互作用、難易度制御の不足、評価結果の妥当性検証の困難といった課題に直面しており、ターゲットモデルの知識と能力の境界を正確に決定することは困難である。
これらの課題に対処するために,新たなインタビュアースタイル評価パラダイムに基づく知識ターゲット適応動的評価フレームワークであるJiceAgentを提案する。
judgeAgentは、ベンチマークグレーディング、インタラクティブ拡張、評価フィードバックからなる包括的な評価アプローチを採用している。
知識駆動データ合成と目標適応的難易度調整法を利用して、拡張テストを行い、正確かつ効果的な評価結果を提供する。
また、評価手法の検証に関する新たな知見を導入し、広範囲な実験を通して、ジャッジアジェントとその動的評価パラダイムの有効性を実証する。
関連論文リスト
- When AIs Judge AIs: The Rise of Agent-as-a-Judge Evaluation for LLMs [8.575522204707958]
大規模言語モデル(LLM)は能力と自律性が向上し、特にオープンで複雑なタスクにおいて、アウトプットの評価が重要なボトルネックとなっている。
新たなパラダイムが生まれつつある。AIエージェントを評価対象として使用することだ。
本稿では,エージェント・アズ・ア・ジャッジの概念を定義し,単一モデル審査員から動的マルチエージェント・ディスカッション・フレームワークへの進化を辿り,その強みと欠点を批判的に検証する。
論文 参考訳(メタデータ) (2025-08-05T01:42:25Z) - Should you use LLMs to simulate opinions? Quality checks for early-stage deliberation [5.4260854377259315]
そこで我々は,LLMを模擬したQuality Controlアセスメントを提案する。
この評価は2つの重要なテストから成っている。
どのモデルやメソッドも完全な評価をパスせず、いくつかの障害モードを明らかにします。
論文 参考訳(メタデータ) (2025-04-11T20:16:02Z) - Multi-Agent LLM Judge: automatic personalized LLM judge design for evaluating natural language generation applications [0.0]
大規模言語モデル(LLM)は、さまざまなドメインにまたがって素晴らしいパフォーマンスを示しているが、ドメイン固有の知識の不足、バイアス、幻覚といった問題に直面している。
単語重複やテキスト埋め込みに依存する従来の評価手法は、動的でオープンなテキスト生成を評価するのに必要なニュアンスドセマンティック情報を取得するには不十分である。
本稿では,様々な自然言語生成アプリケーション向けにパーソナライズされたLLM判断器を自動設計する動的マルチエージェントシステムを提案する。
論文 参考訳(メタデータ) (2025-04-01T09:36:56Z) - TestAgent: A Framework for Domain-Adaptive Evaluation of LLMs via Dynamic Benchmark Construction and Exploratory Interaction [29.72874725703848]
大規模言語モデル(LLM)は、様々な垂直領域に徐々に展開されている。
現在の評価方法は、実世界の要求に合致しない静的でリソース集約的なデータセットに依存している。
textbfBenchmark+は従来の質問応答ベンチマークを、より柔軟な戦略基準のフォーマットに拡張します。
我々は,これらの概念を実装したエージェントベースの評価フレームワークであるtextbftextscTestAgentを提案する。
論文 参考訳(メタデータ) (2024-10-15T11:20:42Z) - AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [74.16170899755281]
本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
AgentBoardは、インクリメンタルな進歩と包括的な評価ツールキットをキャプチャする、きめ細かい進捗率のメトリクスを提供する。
これはLLMエージェントの能力と限界に光を当てるだけでなく、その性能の解釈可能性も最前線に広める。
論文 参考訳(メタデータ) (2024-01-24T01:51:00Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - MLLM-Bench: Evaluating Multimodal LLMs with Per-sample Criteria [49.500322937449326]
MLLM(Multimodal large language model)は、AIアプリケーションの範囲を広げている。
既存のMLLMの自動評価手法は主にユーザエクスペリエンスを考慮せずにクエリを評価する場合に限られている。
本稿では,MLLM を判断基準として評価する MLLM の新しい評価パラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-23T12:04:25Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。