論文の概要: JADE: Expert-Grounded Dynamic Evaluation for Open-Ended Professional Tasks
- arxiv url: http://arxiv.org/abs/2602.06486v1
- Date: Fri, 06 Feb 2026 08:26:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.296114
- Title: JADE: Expert-Grounded Dynamic Evaluation for Open-Ended Professional Tasks
- Title(参考訳): JADE: オープンエンディングプロフェッショナルタスクのエキスパートによる動的評価
- Authors: Lanbo Lin, Jiayao Liu, Tianyuan Yang, Li Cai, Yuanwu Xu, Lei Wei, Sicong Xie, Guannan Zhang,
- Abstract要約: 本稿ではエージェントAIのための2層評価フレームワークであるJADEを提案する。
レイヤ1は、専門家の知識を事前に定義された評価スキルのセットとしてエンコードする。
レイヤ2は、多様な推論戦略を柔軟に評価するために、レポート固有のクレームレベルの評価を行う。
- 参考スコア(独自算出の注目度): 14.14645345504797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating agentic AI on open-ended professional tasks faces a fundamental dilemma between rigor and flexibility. Static rubrics provide rigorous, reproducible assessment but fail to accommodate diverse valid response strategies, while LLM-as-a-judge approaches adapt to individual responses yet suffer from instability and bias. Human experts address this dilemma by combining domain-grounded principles with dynamic, claim-level assessment. Inspired by this process, we propose JADE, a two-layer evaluation framework. Layer 1 encodes expert knowledge as a predefined set of evaluation skills, providing stable evaluation criteria. Layer 2 performs report-specific, claim-level evaluation to flexibly assess diverse reasoning strategies, with evidence-dependency gating to invalidate conclusions built on refuted claims. Experiments on BizBench show that JADE improves evaluation stability and reveals critical agent failure modes missed by holistic LLM-based evaluators. We further demonstrate strong alignment with expert-authored rubrics and effective transfer to a medical-domain benchmark, validating JADE across professional domains. Our code is publicly available at https://github.com/smiling-world/JADE.
- Abstract(参考訳): オープンエンドのプロフェッショナルタスクにおけるエージェントAIの評価は、厳格性と柔軟性の基本的なジレンマに直面します。
LLM-as-a-judgeアプローチは個々の反応に適応するが、不安定性とバイアスに悩まされる。
人間の専門家はこのジレンマに、ドメイン基底の原則と動的なクレームレベルの評価を組み合わせることで対処する。
このプロセスに触発されて、我々は2層評価フレームワークであるJADEを提案する。
レイヤ1は、専門家の知識を事前定義された評価スキルのセットとしてエンコードし、安定した評価基準を提供する。
レイヤ2は、さまざまな推論戦略を柔軟に評価するために、レポート固有のクレームレベルの評価を行い、反証されたクレームに構築された結論を無効にするための証拠依存性のゲーティングを行う。
BizBenchの実験では、JADEは評価安定性を改善し、LCMベースの評価器で欠落する臨界エージェント障害モードを明らかにする。
さらに、専門家が認可したルーリックと強力な整合性を示し、医療ドメインのベンチマークに効果的に移行し、JADEをプロのドメインで検証する。
私たちのコードはhttps://github.com/smiling-world/JADE.comで公開されています。
関連論文リスト
- Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - Who Judges the Judge? LLM Jury-on-Demand: Building Trustworthy LLM Evaluation Systems [2.9141470183751674]
スケーラブルでコンテキスト対応な評価のための動的学習ベースのフレームワークを提案する。
本手法は,LLM審査員が人間専門家といつ一致するかを評価するために,信頼度予測器のセットを訓練する。
要約およびRAGベンチマーク実験により,我々の動的陪審法は,単一判定基準と静的判定基準の両方よりも,人間の判断との相関が著しく高いことを示した。
論文 参考訳(メタデータ) (2025-12-01T15:26:20Z) - JudgeAgent: Knowledge-wise and Dynamic LLM Evaluation with Agent-as-Interviewer [19.09571232466437]
大規模言語モデル(LLM)のための動的評価パラダイムであるエージェント・アズ・インタービューアを提案する。
現在のベンチマークや動的相互作用のパラダイムとは異なり、エージェント・アズ・インタービューアはエージェントを使用して動的マルチターン質問生成においてより広く深い知識を得るために知識ツールを呼び出します。
我々は、知識駆動型合成をエージェントのツールとして活用し、戦略指導として難易度スコアリングを利用する知識ワイドな動的評価フレームワークであるJiceAgentを開発する。
論文 参考訳(メタデータ) (2025-09-02T08:52:16Z) - Expert Preference-based Evaluation of Automated Related Work Generation [54.29459509574242]
本稿では,従来の作業評価基準と専門家固有の嗜好を統合したマルチターン評価フレームワークGREPを提案する。
より優れたアクセシビリティを実現するため、我々はGREPの2つの変種を設計する: プロプライエタリなLLMを評価対象とするより正確な変種と、オープンウェイトなLLMをより安価な代替品である。
論文 参考訳(メタデータ) (2025-08-11T13:08:07Z) - J1: Incentivizing Thinking in LLM-as-a-Judge via Reinforcement Learning [54.85131761693927]
意思決定前にLLM審査員に思考を教えるための強化学習フレームワークであるJ1を紹介する。
私たちのコアコントリビューションは、検証不可能で検証可能なプロンプトのすべての判断タスクを、検証可能な報酬を持った統一フォーマットに変換することです。
次に、RLを用いて8B、32B、70Bのスケールで思考判断を訓練し、彼らが最先端のパフォーマンスを得ることを示す。
論文 参考訳(メタデータ) (2025-05-15T14:05:15Z) - DAFE: LLM-Based Evaluation Through Dynamic Arbitration for Free-Form Question-Answering [12.879551933541345]
大規模言語モデル評価のための動的アロケーションフレームワーク(DAFE)を提案する。
DAFEは2つの主要なLCM-as-judgesを採用し、不一致の場合のみ第3の仲裁を行う。
DAFEが一貫した、スケーラブルで、リソース効率の高いアセスメントを提供する能力を示す。
論文 参考訳(メタデータ) (2025-03-11T15:29:55Z) - EQUATOR: A Deterministic Framework for Evaluating LLM Reasoning with Open-Ended Questions. # v1.0.0-beta [2.1249213103048414]
本研究では,決定論的スコアと実測精度とロバストな推論評価に着目したEQUATOR評価器を提案する。
ベクトルデータベースを使用して、EQUATORは人間の評価された回答とオープンエンドの質問をペアリングし、より正確でスケーラブルな評価を可能にする。
この枠組みは,高精度な基準を維持しつつ,従来のマルチ選択評価を著しく上回っていることを示す。
論文 参考訳(メタデータ) (2024-12-31T03:56:17Z) - HREF: Human Response-Guided Evaluation of Instruction Following in Language Models [61.273153125847166]
我々は新しい評価ベンチマークHREF(Human Response-Guided Evaluation of Instruction following)を開発した。
HREFは信頼性の高い評価を提供するだけでなく、個々のタスクのパフォーマンスを強調し、汚染を受けない。
本稿では,評価セットのサイズ,判断モデル,ベースラインモデル,プロンプトテンプレートなど,HREFにおける鍵設計選択の影響について検討する。
論文 参考訳(メタデータ) (2024-12-20T03:26:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。