論文の概要: DashboardQA: Benchmarking Multimodal Agents for Question Answering on Interactive Dashboards
- arxiv url: http://arxiv.org/abs/2508.17398v1
- Date: Sun, 24 Aug 2025 15:11:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.505324
- Title: DashboardQA: Benchmarking Multimodal Agents for Question Answering on Interactive Dashboards
- Title(参考訳): DashboardQA: 対話型ダッシュボードにおける質問応答のためのマルチモーダルエージェントのベンチマーク
- Authors: Aaryaman Kartha, Ahmed Masry, Mohammed Saidul Islam, Thinh Lang, Shadikur Rahman, Ridwan Mahbub, Mizanur Rahman, Mahir Ahmed, Md Rizwan Parvez, Enamul Hoque, Shafiq Joty,
- Abstract要約: DashboardQAは、ビジュアル言語GUIエージェントが現実世界のダッシュボードをどのように理解し、相互作用するかを評価するために設計されたベンチマークである。
Tableau Publicから112のインタラクティブダッシュボードと、マルチ選択、ファクトイド、仮説、マルチダッシュボード、会話という5つのカテゴリにまたがる対話型ダッシュボードを備えた405の質問応答ペアが含まれている。
この結果から, インタラクティブなダッシュボード推論は, 総合的に評価されるすべてのVLMにおいて難しい課題であることがわかった。
- 参考スコア(独自算出の注目度): 44.69783955774917
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dashboards are powerful visualization tools for data-driven decision-making, integrating multiple interactive views that allow users to explore, filter, and navigate data. Unlike static charts, dashboards support rich interactivity, which is essential for uncovering insights in real-world analytical workflows. However, existing question-answering benchmarks for data visualizations largely overlook this interactivity, focusing instead on static charts. This limitation severely constrains their ability to evaluate the capabilities of modern multimodal agents designed for GUI-based reasoning. To address this gap, we introduce DashboardQA, the first benchmark explicitly designed to assess how vision-language GUI agents comprehend and interact with real-world dashboards. The benchmark includes 112 interactive dashboards from Tableau Public and 405 question-answer pairs with interactive dashboards spanning five categories: multiple-choice, factoid, hypothetical, multi-dashboard, and conversational. By assessing a variety of leading closed- and open-source GUI agents, our analysis reveals their key limitations, particularly in grounding dashboard elements, planning interaction trajectories, and performing reasoning. Our findings indicate that interactive dashboard reasoning is a challenging task overall for all the VLMs evaluated. Even the top-performing agents struggle; for instance, the best agent based on Gemini-Pro-2.5 achieves only 38.69% accuracy, while the OpenAI CUA agent reaches just 22.69%, demonstrating the benchmark's significant difficulty. We release DashboardQA at https://github.com/vis-nlp/DashboardQA
- Abstract(参考訳): Dashboardは、データ駆動意思決定のための強力な視覚化ツールであり、複数のインタラクティブビューを統合して、データの探索、フィルタリング、ナビゲートを可能にする。
静的チャートとは異なり、ダッシュボードはリッチな対話性をサポートしており、実際の分析ワークフローにおける洞察を明らかにするのに不可欠である。
しかし、データビジュアライゼーションのための既存の質問答えベンチマークは、静的チャートではなく、この対話性を見落としている。
この制限は、GUIベースの推論のために設計された現代のマルチモーダルエージェントの機能を評価する能力を厳しく制限する。
このギャップに対処するため、我々はDashboardQAという、視覚言語GUIエージェントが現実世界のダッシュボードをどのように理解し、どのように相互作用するかを評価するために設計された最初のベンチマークを紹介した。
ベンチマークには、Tableau Publicの112のインタラクティブダッシュボードと、マルチ選択、ファクトイド、仮説、マルチダッシュボード、会話という5つのカテゴリにまたがる対話型ダッシュボードを備えた405の質問回答ペアが含まれている。
様々な主要なクローズドおよびオープンソースGUIエージェントを評価することで、特にダッシュボード要素の接地、インタラクショントラジェクトリの計画、推論の実行において重要な制限を明らかにします。
この結果から, インタラクティブなダッシュボード推論は, 総合的に評価されるすべてのVLMにおいて難しい課題であることがわかった。
例えば、Gemini-Pro-2.5に基づく最高のエージェントは38.69%の精度しか達成せず、OpenAI CUAエージェントは22.69%にしか達せず、ベンチマークの重大な難しさを示している。
DashboardQAはhttps://github.com/vis-nlp/DashboardQAでリリースしています。
関連論文リスト
- UIPro: Unleashing Superior Interaction Capability For GUI Agents [33.77980648230746]
人間のようなグラフィカルユーザインタフェース(GUI)を知覚し、操作する自律エージェントの構築は、人工知能の分野における長年のビジョンである。
視覚言語モデル(VLM)のマルチモーダル理解能力に基づくGUIエージェントの開発が試みられている。
本稿では,多プラットフォーム・マルチタスクGUIインタラクションデータを用いた新しい汎用GUIエージェントであるtextUIProを提案する。
論文 参考訳(メタデータ) (2025-09-22T03:04:53Z) - FineState-Bench: A Comprehensive Benchmark for Fine-Grained State Control in GUI Agents [12.315613848863784]
ファインステートベンチ(FinState-Bench)は,GUIプロキシ操作のための評価および診断標準である。
FineState-Benchには4つのコンポーネントに2257のタスクベンチマークが含まれており、知覚制御評価に4フェーズインジケータを使用している。
我々の診断フレームワークは、現在のGUIプロキシの最大のボトルネックが基本的な視覚的位置決め能力であることを初めて確認します。
論文 参考訳(メタデータ) (2025-08-12T15:12:42Z) - MagicGUI: A Foundational Mobile GUI Agent with Scalable Data Pipeline and Reinforcement Fine-tuning [83.81404871748438]
MagicGUIは、現実のモバイルGUI環境における認識、接地、推論における重要な課題に対処するために設計された、基本的なモバイルGUIエージェントである。
フレームワークには、包括的で正確なデータセット、知覚と接地能力の強化、包括的で統一されたアクション空間、計画指向の推論メカニズムを含む6つの重要なコンポーネントが含まれている。
論文 参考訳(メタデータ) (2025-07-19T12:33:43Z) - GTA1: GUI Test-time Scaling Agent [77.60727242084971]
本稿ではGUIテストタイムスケーリングエージェントGTA1の2つの課題について検討する。
まず、最も適切なアクション提案を選択するために、テスト時間スケーリング手法を提案する。
第2に、選択したアクション提案を対応する視覚要素にグラウンドする際の精度の向上を実現するモデルを提案する。
論文 参考訳(メタデータ) (2025-07-08T08:52:18Z) - What Limits Virtual Agent Application? OmniBench: A Scalable Multi-Dimensional Benchmark for Essential Virtual Agent Capabilities [56.646832992178105]
我々は、制御可能な複雑性のタスクを合成するための自動パイプラインを備えたクロスプラットフォームグラフベースのベンチマークであるOmniBenchを紹介した。
OmniEvalは、サブタスクレベルの評価、グラフベースのメトリクス、および10機能にわたる包括的なテストを含む多次元評価フレームワークである。
我々のデータセットには、20のシナリオにわたる36万のグラフ構造化タスクが含まれており、人間の受け入れ率は91%に達する。
論文 参考訳(メタデータ) (2025-06-10T15:59:38Z) - RefChartQA: Grounding Visual Answer on Chart Images through Instruction Tuning [63.599057862999]
RefChartQAは、Chart Question Answering(ChartQA)とビジュアルグラウンドを統合した、新しいベンチマークである。
実験により,グラウンド化による空間認識を取り入れることで,応答精度が15%以上向上することが実証された。
論文 参考訳(メタデータ) (2025-03-29T15:50:08Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。
デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。
256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文 参考訳(メタデータ) (2024-11-26T14:29:47Z) - Visual Grounding Methods for Efficient Interaction with Desktop Graphical User Interfaces [1.3107174618549584]
Instruction Visual Grounding (IVG) はグラフィカルユーザインタフェース (GUI) におけるオブジェクト識別のためのマルチモーダルアプローチである
本稿では、オブジェクト検出モデルであるLarge Language Model(LLM)とOCRモジュールを組み合わせたIVGocrと、エンド・ツー・エンドのグラウンド化にマルチモーダルアーキテクチャを用いたIVGdirectを提案する。
私たちの最終テストデータセットは、将来の研究をサポートするために公開されています。
論文 参考訳(メタデータ) (2024-05-05T19:10:19Z) - An Extensible Dashboard Architecture For Visualizing Base And Analyzed
Data [2.169919643934826]
本稿では,解析データだけでなく,基盤の可視化にも着目する。
本稿では,ユーザインタラクション,ビジュアライゼーション管理,およびベースデータの複雑な解析を行うためのダッシュボードのモジュラーアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-06-09T19:45:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。