論文の概要: AgenticVBench: Can AI Agents Complete Real-World Post-Production Tasks?
- arxiv url: http://arxiv.org/abs/2605.27705v1
- Date: Tue, 26 May 2026 21:27:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.533202
- Title: AgenticVBench: Can AI Agents Complete Real-World Post-Production Tasks?
- Title(参考訳): AgenticVBench: AIエージェントは実世界のポストプロダクションタスクを完了できるか?
- Authors: Zongheng Cao, Yi Zheng, Rui Song, Xinyu Hu,
- Abstract要約: ビデオ制作は、マルチモーダルAIエージェントを評価するためのリッチで要求の多い場を提供する。
AgenticVBenchは、実世界のポストプロダクションワークフローにまたがる4つのタスクファミリーにまたがる100のエージェントタスクのベンチマークである。
- 参考スコア(独自算出の注目度): 17.55055137480804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video production workflows offer a rich and demanding arena for evaluating multimodal AI agents: they require composite capabilities across text, image, audio, and video understanding, along with long-horizon planning, and tool use. To this end, we introduce AgenticVBench, a benchmark of 100 agentic tasks across 4 task families spanning the real world post-production workflow, constructed from real production workflows contributed by 20 industry experts averaging 6 years of professional experience. Tasks are paired with evaluation specifications that combine programmatic verifiers and expert rubrics. We evaluate frontier vision-language models (VLMs) with both vendor-native and open-source harnesses. The best evaluated agent stack barely crosses 30%, far below human expert performance on the same tasks. We further find that the choice of harness substantially affects model behavior, including scores, tool-use patterns, and failure modes. AgenticVBench provides a foundation for diagnosing and improving both models and harnesses for agentic video production. Benchmark website: https://agenticvbench.com.
- Abstract(参考訳): ビデオプロダクションワークフローは、マルチモーダルAIエージェントを評価するために、リッチで要求の多い領域を提供する。
この目的のために、AgenticVBenchを紹介します。AgenticVBenchは、実世界のポストプロダクションワークフローにまたがる4つのタスクファミリーにまたがる100のエージェントタスクのベンチマークです。
タスクは、プログラム検証器とエキスパートルーリックを組み合わせた評価仕様と組み合わせられる。
ベンダーネイティブとオープンソースハーネスの両方でフロンティアビジョン言語モデル(VLM)を評価する。
最高の評価エージェントスタックは、同じタスクにおける人間の専門家のパフォーマンスよりもはるかに低い30%をわずかに越えている。
さらに、ハーネスの選択は、スコア、ツール使用パターン、障害モードなど、モデルの振る舞いに大きく影響することがわかった。
AgenticVBenchは、エージェントビデオ制作のためのモデルとハーネスの両方を診断および改善するための基盤を提供する。
ベンチマークサイト: https://agenticvbench.com
関連論文リスト
- AgencyBench: Benchmarking the Frontiers of Autonomous Agents in 1M-Token Real-World Contexts [35.52607495764441]
大規模言語モデル(LLM)に基づく自律エージェントは、経済的生産に大きく貢献する多面的能力を示す。
我々は、毎日のAI使用から派生したベンチマークであるAgentBenchを紹介し、32の現実シナリオにわたる6つのコアエージェント能力を評価した。
これらのシナリオでは、平均90のツールコール、100万のトークン、解決に必要な実行時間が必要です。
論文 参考訳(メタデータ) (2026-01-16T07:22:20Z) - UniVA: Universal Video Agent towards Open-Source Next-Generation Video Generalist [107.04196084992907]
次世代ビデオジェネラリストのためのオールニ対応マルチエージェントフレームワークUniVAを紹介する。
UniVAはPlan-and-Actのデュアルエージェントアーキテクチャを採用しており、高度に自動化されプロアクティブなワークフローを駆動している。
また、理解、編集、セグメンテーション、生成にまたがるマルチステップビデオタスクのベンチマークスイートUniVA-Benchについても紹介する。
論文 参考訳(メタデータ) (2025-11-11T17:58:13Z) - Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation [87.47155146067962]
数百のタスクで並列評価をオーケストレーションする,標準化された評価ハーネスを提供する。
モデル、足場、ベンチマークにまたがる3次元解析を行う。
私たちの分析では、ほとんどのランで精度を低下させる高い推論努力など、驚くべき洞察が示されています。
論文 参考訳(メタデータ) (2025-10-13T22:22:28Z) - Agent-X: Evaluating Deep Multimodal Reasoning in Vision-Centric Agentic Tasks [94.19506319646376]
本稿では,実世界のマルチモーダル環境での視覚中心エージェント評価のためのベンチマークであるAgent-Xを紹介する。
Agent-Xは、828のエージェントタスクと、イメージ、マルチイメージ比較、ビデオ、命令テキストを含む、真の視覚的コンテキストを備えている。
その結果、GPT、Gemini、Qwenファミリーを含む最高のパフォーマンスモデルでさえ、多段階視覚タスクの解決に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2025-05-30T17:59:53Z) - FieldWorkArena: Agentic AI Benchmark for Real Field Work Tasks [52.47895046206854]
FieldWorkArenaは、現実世界のフィールドワークをターゲットにしたエージェントAIのベンチマークである。
本稿では、エージェントAIが現実世界の作業環境ベンチマークのために持つべき新しいアクション空間を定義する。
論文 参考訳(メタデータ) (2025-05-26T08:21:46Z) - xLAM: A Family of Large Action Models to Empower AI Agent Systems [111.5719694445345]
AIエージェントタスク用に設計された大規模なアクションモデルであるxLAMをリリースする。
xLAMは、複数のエージェント能力ベンチマークで例外的なパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-09-05T03:22:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。