論文の概要: AD-Bench: A Real-World, Trajectory-Aware Advertising Analytics Benchmark for LLM Agents
- arxiv url: http://arxiv.org/abs/2602.14257v1
- Date: Sun, 15 Feb 2026 17:59:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:49.847946
- Title: AD-Bench: A Real-World, Trajectory-Aware Advertising Analytics Benchmark for LLM Agents
- Title(参考訳): AD-Bench: LLMエージェントのための実世界の軌道対応広告分析ベンチマーク
- Authors: Lingxiang Hu, Yiding Sun, Tianle Xia, Wenwei Li, Ming Xu, Liqun Liu, Peng Shu, Huan Yu, Jie Jiang,
- Abstract要約: AD-Benchは、広告とマーケティングプラットフォームの実際のビジネス要件に基づくベンチマークである。
ベンチマークでは、リクエストを3つの難易度に分類し、マルチラウンドのマルチツールコラボレーションの下でエージェントの能力を評価する。
実験によると、最先端のモデルでさえ、複雑な広告やマーケティング分析のシナリオにおいて、大きな能力のギャップをみせている。
- 参考スコア(独自算出の注目度): 11.506625665006979
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Large Language Model (LLM) agents have achieved remarkable progress in complex reasoning tasks, evaluating their performance in real-world environments has become a critical problem. Current benchmarks, however, are largely restricted to idealized simulations, failing to address the practical demands of specialized domains like advertising and marketing analytics. In these fields, tasks are inherently more complex, often requiring multi-round interaction with professional marketing tools. To address this gap, we propose AD-Bench, a benchmark designed based on real-world business requirements of advertising and marketing platforms. AD-Bench is constructed from real user marketing analysis requests, with domain experts providing verifiable reference answers and corresponding reference tool-call trajectories. The benchmark categorizes requests into three difficulty levels (L1-L3) to evaluate agents' capabilities under multi-round, multi-tool collaboration. Experiments show that on AD-Bench, Gemini-3-Pro achieves Pass@1 = 68.0% and Pass@3 = 83.0%, but performance drops significantly on L3 to Pass@1 = 49.4% and Pass@3 = 62.1%, with a trajectory coverage of 70.1%, indicating that even state-of-the-art models still exhibit substantial capability gaps in complex advertising and marketing analysis scenarios. AD-Bench provides a realistic benchmark for evaluating and improving advertising marketing agents, the leaderboard and code can be found at https://github.com/Emanual20/adbench-leaderboard.
- Abstract(参考訳): 大規模言語モデル (LLM) エージェントは複雑な推論タスクにおいて顕著な進歩を遂げているが, 実環境における性能評価は重要な問題となっている。
しかし、現在のベンチマークは理想化されたシミュレーションに限定されており、広告やマーケティング分析といった専門分野の実践的な要求に対処できない。
これらの分野では、タスクは本質的により複雑であり、プロのマーケティングツールとのマルチラウンドインタラクションを必要とすることが多い。
このギャップに対処するため,広告とマーケティングプラットフォームの実際のビジネス要件に基づいたベンチマークであるAD-Benchを提案する。
AD-Benchは実際のユーザマーケティング分析要求から構築され、ドメインの専門家が検証可能な参照回答と対応する参照ツール呼び出しトラジェクトリを提供する。
ベンチマークでは、リクエストを3つの困難レベル(L1-L3)に分類し、マルチラウンドのマルチツールコラボレーションの下でエージェントの能力を評価する。
AD-Benchでは、Gemini-3-ProがPass@1 = 68.0%、Pass@3 = 83.0%を達成するが、L3からPass@1 = 49.4%、Pass@3 = 62.1%に大幅に低下し、70.1%のトラジェクティブカバレッジが達成された。
AD-Benchは、広告マーケティングエージェントの評価と改善のための現実的なベンチマークを提供し、リーダーボードとコードはhttps://github.com/Emanual20/adbench- Leaderboardで見ることができる。
関連論文リスト
- MARS: Modular Agent with Reflective Search for Automated AI Research [48.54202614558741]
我々は自律型AI研究に最適化されたフレームワークMARSを紹介する。
MARSは,(1)コストを意識したモンテカルロ木探索(MCTS)による予算計画(Budget-Aware Planning)による実行コストとパフォーマンスを明示的にバランスさせる),(2)複雑なリポジトリを管理するために"Design-Decompose-Implement"パイプラインを使用するモジュール構成,(3)ソリューションの違いを分析して高信号の洞察を抽出することで,与信の割り当てに対処する反射記憶(Reference Reflective Memory)という3つの柱に依存している。
論文 参考訳(メタデータ) (2026-02-02T19:00:03Z) - LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering [90.84806758077536]
textbfLoCoBench-Agentは,大規模言語モデル(LLM)エージェントを現実的,長期的ソフトウェア工学で評価するための総合的な評価フレームワークである。
我々のフレームワークは、LoCoBenchの8000のシナリオを対話型エージェント環境に拡張し、マルチターン会話の体系的評価を可能にする。
我々のフレームワークは,8つの特殊なツール(ファイル操作,検索,コード解析)をエージェントに提供し,それを10Kから1Mトークンの範囲で評価する。
論文 参考訳(メタデータ) (2025-11-17T23:57:24Z) - On Generalization in Agentic Tool Calling: CoreThink Agentic Reasoner and MAVEN Dataset [16.921428284844684]
エージェントツールコール環境間の一般化は、信頼できる推論システムを開発する上で重要な未解決課題である。
本稿では、構造化分解と適応ツールオーケストレーションのための軽量なシンボリック推論層を用いて、大規模言語モデルを強化するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-27T00:58:48Z) - xbench: Tracking Agents Productivity Scaling with Profession-Aligned Real-World Evaluations [30.34618272227522]
私たちは、AIエージェント能力と現実世界の生産性のギャップを埋めるために設計された、専門性に沿った評価スイートであるxbenchを紹介します。
xbenchは、業界の専門家によって定義された評価タスクを備えた、商業的に重要なドメインをターゲットにしている。
我々は、これらの専門分野のベースラインを確立するために、現代エージェントを指導するための初期評価結果を提示する。
論文 参考訳(メタデータ) (2025-06-16T16:16:14Z) - SOP-Bench: Complex Industrial SOPs for Evaluating LLM Agents [16.08820954102608]
大規模言語モデル(LLM)は、目覚ましい汎用推論と問題解決能力を示している。
LLMは、標準動作手順の厳格な遵守を要求する複雑な長期水平実行に苦慮している。
SOP-Benchは10の産業ドメインにわたる1,800以上のタスクのベンチマークである。
論文 参考訳(メタデータ) (2025-06-09T18:20:12Z) - BenchHub: A Unified Benchmark Suite for Holistic and Customizable LLM Evaluation [13.897645524385274]
BenchHubは動的ベンチマークリポジトリで、研究者や開発者がより大きな言語モデル(LLM)をより効果的に評価できるようにする。
継続的更新とスケーラブルなデータ管理をサポートし、さまざまなドメインやユースケースに合わせてフレキシブルでカスタマイズ可能な評価を可能にするように設計されている。
論文 参考訳(メタデータ) (2025-05-31T09:24:32Z) - SPA-Bench: A Comprehensive Benchmark for SmartPhone Agent Evaluation [89.24729958546168]
スマートフォンエージェントは、ユーザーがデバイスを効率的に制御するのを助けるためにますます重要になっている。
We present SPA-Bench, a comprehensive SmartPhone Agent Benchmark designed to evaluate (M)LLM-based agent。
論文 参考訳(メタデータ) (2024-10-19T17:28:48Z) - MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains [54.117238759317004]
大規模マルチタスクエージェント理解(MMAU)ベンチマークは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としている。
ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習コーディング、コンテストレベルのプログラミング、数学の5分野にわたるモデルを評価する。
3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-07-18T00:58:41Z) - AgentBench: Evaluating LLMs as Agents [99.12825098528212]
エージェントとしてのLarge Language Model (LLM)は近年広く認知されている。
我々は,LLM-as-Agentの推論と意思決定能力を評価するために,8つの異なる環境からなるベンチマークであるAgentBenchを提案する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。