論文の概要: AJ-Bench: Benchmarking Agent-as-a-Judge for Environment-Aware Evaluation
- arxiv url: http://arxiv.org/abs/2604.18240v1
- Date: Mon, 20 Apr 2026 13:23:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.89624
- Title: AJ-Bench: Benchmarking Agent-as-a-Judge for Environment-Aware Evaluation
- Title(参考訳): AJ-Bench:環境意識評価のためのベンチマークエージェント・アズ・ア・ジャッジ
- Authors: Wentao Shi, Yu Wang, Yuyang Zhao, Yuxin Chen, Fuli Feng, Xueyuan Hao, Xi Su, Qi Gu, Hui Su, Xunliang Cai, Xiangnan He,
- Abstract要約: 我々は,AJ-Benchベンチマークを導入し,ドメイン検索,データシステム,グラフィカルユーザインタフェースの3つの領域にまたがるエージェント・アズ・ア・Judgeを評価する。
実験ではLLM-as-a-Judgeベースラインよりも一貫したパフォーマンス向上を示し、エージェントベースの検証においてかなりオープンな課題を明らかにした。
- 参考スコア(独自算出の注目度): 71.49152943451328
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As reinforcement learning continues to scale the training of large language model-based agents, reliably verifying agent behaviors in complex environments has become increasingly challenging. Existing approaches rely on rule-based verifiers or LLM-as-a-Judge models, which struggle to generalize beyond narrow domains. Agent-as-a-Judge addresses this limitation by actively interacting with environments and tools to acquire verifiable evidence, yet its capabilities remain underexplored. We introduce a benchmark AJ-Bench to systematically evaluate Agent-as-a-Judge across three domains-search, data systems, and graphical user interfaces-comprising 155 tasks and 516 annotated trajectories. The benchmark comprehensively assesses judge agents' abilities in information acquisition, state verification, and process verification. Experiments demonstrate consistent performance gains over LLM-as-a-Judge baselines, while also revealing substantial open challenges in agent-based verification. Our data and code are available at https://aj-bench.github.io/.
- Abstract(参考訳): 強化学習が大規模言語モデルに基づくエージェントの訓練を拡大し続けるにつれ、複雑な環境におけるエージェントの動作を確実に検証することがますます困難になっている。
既存のアプローチはルールベースの検証や LLM-as-a-Judge モデルに頼っている。
エージェント・アズ・ア・ジャッジ(Agen-as-a-Judge)は、検証済みの証拠を取得するために環境やツールと積極的に対話することで、この制限に対処する。
我々は,AJ-Benchベンチマークを導入し,ドメイン検索,データシステム,グラフィカルユーザインタフェースを構成する155のタスクと516の注釈付きトラジェクトリを体系的に評価する。
このベンチマークは、情報取得、状態検証、およびプロセス検証における審査員の能力を総合的に評価する。
実験ではLLM-as-a-Judgeベースラインよりも一貫したパフォーマンス向上を示し、エージェントベースの検証においてかなりオープンな課題を明らかにした。
私たちのデータとコードはhttps://aj-bench.github.io/で公開されています。
関連論文リスト
- Benchmark Test-Time Scaling of General LLM Agents [27.756239376314294]
General AgentBenchは、検索、コーディング、推論、ツール使用ドメインにわたる一般的なLLMエージェントを評価するためのベンチマークである。
ドメイン固有評価から一般エージェント設定に移行する際の性能劣化について検討する。
どちらのスケーリングも2つの基本的な制限のため、実行時の効果的なパフォーマンス改善にはならないことが分かりました。
論文 参考訳(メタデータ) (2026-02-22T01:08:02Z) - Agentic Reward Modeling: Verifying GUI Agent via Online Proactive Interaction [7.731207237810125]
VAGENは、対話ツールを備えた検証エージェントを使用して、自律的に検証戦略を計画するフレームワークである。
VAGEN は LLM-as-a-Judge ベースラインと比較して評価精度が有意に向上することを示す。
論文 参考訳(メタデータ) (2026-01-31T07:36:54Z) - Agentic Rubrics as Contextual Verifiers for SWE Agents [8.469998524915818]
本稿では,エージェントルーブリックがSWEエージェントに対して,効率的でスケーラブルで粒度の高い検証信号を提供することを示す。
結果から,Agenic rubricsは接地トルーステストと整合性を示し,テストが捉えない問題をフラグ付けする。
論文 参考訳(メタデータ) (2026-01-07T18:38:23Z) - Code-in-the-Loop Forensics: Agentic Tool Use for Image Forgery Detection [59.04089915447622]
ForenAgentはインタラクティブなIFDフレームワークで、MLLMが検出対象に関するPythonベースの低レベルツールを自律的に生成、実行、洗練することができる。
人間の推論にインスパイアされた我々は、グローバルな認識、局所的な焦点、反復的探索、そして全体論的偏見を含む動的推論ループを設計する。
実験の結果,ForenAgent は IFD 課題に対する創発的なツール利用能力と反射的推論を示すことがわかった。
論文 参考訳(メタデータ) (2025-12-18T08:38:44Z) - JudgeAgent: Knowledge-wise and Dynamic LLM Evaluation with Agent-as-Interviewer [19.09571232466437]
大規模言語モデル(LLM)のための動的評価パラダイムであるエージェント・アズ・インタービューアを提案する。
現在のベンチマークや動的相互作用のパラダイムとは異なり、エージェント・アズ・インタービューアはエージェントを使用して動的マルチターン質問生成においてより広く深い知識を得るために知識ツールを呼び出します。
我々は、知識駆動型合成をエージェントのツールとして活用し、戦略指導として難易度スコアリングを利用する知識ワイドな動的評価フレームワークであるJiceAgentを開発する。
論文 参考訳(メタデータ) (2025-09-02T08:52:16Z) - How Can Input Reformulation Improve Tool Usage Accuracy in a Complex Dynamic Environment? A Study on $τ$-bench [58.114899897566964]
マルチターンの会話環境では、大きな言語モデル(LLM)は、一貫性のある推論とドメイン固有のポリシーへの固執にしばしば苦労する。
本稿では,関連するドメインルールを付加したユーザクエリを自動的に再構成するIRMA(Input-Reformulation Multi-Agent)フレームワークを提案する。
IRMAはReAct、Function Calling、Self-Reflectionをそれぞれ16.1%、12.7%、19.1%で大きく上回っている。
論文 参考訳(メタデータ) (2025-08-28T15:57:33Z) - InfoDeepSeek: Benchmarking Agentic Information Seeking for Retrieval-Augmented Generation [63.55258191625131]
InfoDeepSeekは、現実世界の動的Web環境でエージェント情報を求めるための新しいベンチマークである。
本稿では,決定性,難易度,多様性の基準を満たす課題クエリを構築するための体系的手法を提案する。
本研究では,情報探索結果の正確性,有用性,コンパクト性に関する詳細な指標を含む,動的エージェント情報探索に適した最初の評価フレームワークを開発する。
論文 参考訳(メタデータ) (2025-05-21T14:44:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。