論文の概要: Beyond Binary Correctness: Scaling Evaluation of Long-Horizon Agents on Subjective Enterprise Tasks
- arxiv url: http://arxiv.org/abs/2603.22744v1
- Date: Tue, 24 Mar 2026 03:16:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.270006
- Title: Beyond Binary Correctness: Scaling Evaluation of Long-Horizon Agents on Subjective Enterprise Tasks
- Title(参考訳): 二元的正当性を超えて:主観的エンタープライズ課題における長軸エージェントのスケーリング評価
- Authors: Abhishek Chandwani, Ishan Gupta,
- Abstract要約: 大規模言語モデルは、数学やプログラミングのような客観的に検証可能なタスクに優れており、評価は単体テストや一つの正しい答えに還元される。
LH-Benchは、二項正当性を超えて、主観的エンタープライズタスクにおける自律的長期実行をスコアする3ピラー評価設計である。
- 参考スコア(独自算出の注目度): 4.09533297040075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models excel on objectively verifiable tasks such as math and programming, where evaluation reduces to unit tests or a single correct answer. In contrast, real-world enterprise work is often subjective and context-dependent: success hinges on organizational goals, user intent, and the quality of intermediate artifacts produced across long, multi-tool workflows. We introduce LH-Bench, a three-pillar evaluation design that moves beyond binary correctness to score autonomous, long-horizon execution on subjective enterprise tasks. The pillars are: (i) expert-grounded rubrics that give LLM judges the domain context needed to score subjective work, (ii) curated ground-truth artifacts that enable stepwise reward signals (e.g., chapter-level annotation for content tasks), and (iii) pairwise human preference evaluation for convergent validation. We show that domain-authored rubrics provide substantially more reliable evaluation signals than LLM-authored rubrics (kappa = 0.60 vs. 0.46), and that human preference judgments confirm the same top-tier separation (p < 0.05), evidence that expert-grounded evaluation can scale without sacrificing reliability. We release public datasets and report results on two environments: Figma-to-code (33 real .fig tasks against the Figma API via MCP) and Programmatic content (41 courses comprising 183 individually-evaluated chapters on a course platform serving 30+ daily users).
- Abstract(参考訳): 大規模言語モデルは、数学やプログラミングのような客観的に検証可能なタスクに優れており、評価は単体テストや一つの正しい答えに還元される。
成功は、組織的な目標、ユーザの意図、そして長期にわたるマルチツールワークフローで生成された中間的な成果物の品質に依存します。
LH-Benchは、二項正当性を超えて、主観的エンタープライズタスクにおける自律的長期実行をスコアする3ピラー評価設計である。
柱は以下の通り。
i) LLM が主観的な作業を評価するのに必要なドメインコンテキストを判断する専門家の座談会。
(二 段階的な報奨信号(例えば、コンテンツタスクの章レベルの注釈)を可能にする修整された地中実物
三 収束検証のための一対の人間の嗜好評価
筆者らは,LLM法で規定されたルーブリック(kappa = 0.60 vs. 0.46)よりもはるかに信頼性の高い評価信号を提供し,ヒトの嗜好判断が同一のトップ層分離(p < 0.05)を確認し,専門家による評価が信頼性を損なうことなくスケールできることを示す。
我々は、Figma-to-code(MPP経由でFigma APIに対して33の実際の.figタスク)とProgrammatic Content(30以上の日次ユーザを提供するコースプラットフォーム上の183の個別評価章からなる41のコース)という2つの環境に関する公開データセットとレポート結果をリリースする。
関連論文リスト
- CUAAudit: Meta-Evaluation of Vision-Language Models as Auditors of Autonomous Computer-Use Agents [15.119045051735633]
コンピュータ・ユースエージェント(CUA)は、人間のコンピュータインタラクションにおける新しいパラダイムとして登場し、ハイレベルな自然言語命令を知覚することで、デスクトップ環境におけるタスクの自律実行を可能にしている。
既存の評価パイプラインは、静的ベンチマーク、ルールベースの成功チェック、手作業によるインスペクションに依存している。
観察可能な相互作用から直接CUAタスク完了を評価する自律監査機として視覚言語モデル(VLM)について検討する。
現状のVLMは高い精度とキャリブレーションを達成するが、全ての監査員はより複雑な性能劣化を示す。
論文 参考訳(メタデータ) (2026-03-11T09:28:41Z) - AmbiBench: Benchmarking Mobile GUI Agents Beyond One-Shot Instructions in the Wild [30.138230316314534]
本稿では,一方向の指示から双方向の意図のアライメントへ評価をシフトするために,指示明細の分類を取り入れた最初のベンチマークであるAmbiBenchを紹介する。
厳密なレビュープロトコルの下で,25のアプリケーションにまたがる240の生態学的に有効なタスクの厳密なデータセットを構築した。
また,MLLM-as-a-judgeマルチエージェントアーキテクチャを利用した自動フレームワークであるMUSEを開発した。
論文 参考訳(メタデータ) (2026-02-12T09:25:15Z) - LIBERO-X: Robustness Litmus for Vision-Language-Action Models [32.29541801424534]
この研究は、評価とデータの観点からVLAベンチマークを体系的に再考する。
LIBERO-Xは階層的評価プロトコルを特徴とするベンチマークで,3つのコア機能を対象とした進行難度レベルを示す。
代表的なVLAモデルを用いた実験では、累積摂動下での大幅な性能低下が示されている。
論文 参考訳(メタデータ) (2026-02-06T09:59:12Z) - Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling [83.78874399606379]
テスト時間スケーリングを備えたマルチエージェント協調フレームワークであるMACTを提案する。
4つの異なる小規模エージェントから構成され、明確に定義された役割と効果的なコラボレーションがある。
一般および数学的タスクの能力を犠牲にすることなく、より小さなパラメータスケールで優れた性能を示す。
論文 参考訳(メタデータ) (2025-08-05T12:52:09Z) - An LLM-as-Judge Metric for Bridging the Gap with Human Evaluation in SE Tasks [15.820416019287622]
SE-JuryはLLM-as-Ensemble-Judgeの最初の評価基準である。
さまざまなソフトウェアエンジニアリング(SE)ベンチマークでSE-Juryを評価します。
論文 参考訳(メタデータ) (2025-05-27T08:04:34Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。
CompassJudger-1は、優れた汎用性を示す汎用LLMである。
textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文 参考訳(メタデータ) (2024-10-21T17:56:51Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Generating Benchmarks for Factuality Evaluation of Language Models [61.69950787311278]
FACTOR: Factual Assessment via Corpus Transformation, a scalable approach for LM factuality。
FACTORは、興味のある事実のコーパスをLMの正当性を評価するベンチマークに自動的に変換し、コーパスから真事実を生成する。
その結果, (i) ベンチマークスコアはモデルサイズに応じて増加し, LMが検索によって拡張されたときに向上する; (ii) ベンチマークスコアとパープレキシティは必ずしもモデルランキングに一致しない; (iii) パープレキシティとベンチマークスコアが一致しない場合, 後者はオープンエンド世代における事実性を反映する。
論文 参考訳(メタデータ) (2023-07-13T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。