論文の概要: Beyond Pixels: Introspective and Interactive Grounding for Visualization Agents
- arxiv url: http://arxiv.org/abs/2604.21134v1
- Date: Wed, 22 Apr 2026 22:47:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.20577
- Title: Beyond Pixels: Introspective and Interactive Grounding for Visualization Agents
- Title(参考訳): Beyond Pixels: 可視化エージェントのためのイントロスペクティブでインタラクティブなグラウンド
- Authors: Yiyang Lu, Woong Shin, Ahmad Maroof Karimi, Feiyi Wang, Jie Ren, Evgenia Smirni,
- Abstract要約: VLM(Vision-Language Models)は、しばしば誤読値、幻覚的詳細、チャート内の重なり合う要素を混乱させる。
現在のアプローチはピクセル解釈のみに依存し、Pixel-Only Bottleneckを作成する。
Introspective and Interactive Visual Grounding (IVG)は、スペック・グラウンド・イントロスペクションとビュー・グラウンド・インタラクションを組み合わせたフレームワークである。
- 参考スコア(独自算出の注目度): 3.1626173943755975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) frequently misread values, hallucinate details, and confuse overlapping elements in charts. Current approaches rely solely on pixel interpretation, creating a Pixel-Only Bottleneck: agents treat interactive charts as static images, losing access to the structured specification that encodes exact values. We introduce Introspective and Interactive Visual Grounding (IVG), a framework that combines (1) spec-grounded introspection, which queries the underlying specification for deterministic evidence, with (2) view-grounded interaction, which manipulates the view to resolve visual ambiguity. To enable evaluation without VLM bias, we present iPlotBench, a benchmark of 500 interactive Plotly figures with 6,706 binary questions and ground-truth specifications. Experiments show that introspection improves data reconstruction fidelity, while the combination with interaction achieves the highest QA accuracy (0.81), with +6.7 % gains on overlapping geometries. We further demonstrate IVG in deployed agents that explore data autonomously and collaborate with human users in real time.
- Abstract(参考訳): VLM(Vision-Language Models)は、しばしば誤読値、幻覚的詳細、チャート内の重なり合う要素を混乱させる。
エージェントはインタラクティブチャートを静的なイメージとして扱い、正確な値をエンコードする構造化仕様へのアクセスを失う。
Introspective and Interactive Visual Grounding (IVG) は,(1)スペックグラウンド・イントロスペクション,(2)ビューグラウンド・インタラクション,および(2)ビューグラウンド・インタラクションを組み合わせて視覚的曖昧さを解決する。
VLMバイアスを伴わない評価を可能にするために,500個の対話型Plotly図形のベンチマークiPlotBenchを提案する。
実験により、イントロスペクションはデータ再構成の忠実性を改善する一方、相互作用と組み合わせることで高いQA精度(0.81)が達成され、+6.7%のゲインが重なり合う。
さらに、データを自律的に探索し、人間のユーザとリアルタイムでコラボレーションするデプロイエージェントにおいて、IVGをさらに実証する。
関連論文リスト
- Visual Self-Refine: A Pixel-Guided Paradigm for Accurate Chart Parsing [76.2602505940467]
既存のモデルは、しばしば視覚的に密集したチャートに苦しむため、データの欠落、修正ミス、幻覚などのエラーにつながる。
複雑なチャートを読む際の精度を確保するために指を視覚アンカーとして使うという人間の戦略に触発され、視覚自己認識(VSR)と呼ばれる新しいパラダイムを提案する。
VSRの中核となる考え方は、モデルがピクセルレベルのローカライゼーション出力を生成し、それらを視覚化し、それらの視覚化を自身にフィードバックし、直感的にその潜在的な視覚的認識エラーを検査し修正できるようにすることである。
論文 参考訳(メタデータ) (2026-02-18T13:40:53Z) - EdiVal-Agent: An Object-Centric Framework for Automated, Fine-Grained Evaluation of Multi-Turn Editing [170.71134330650796]
EdiVal-Agentは、命令ベースの画像編集のためのオブジェクト指向評価フレームワークである。
標準のシングルターンだけでなく、マルチターンの命令ベースの編集を精度良く評価するように設計されている。
EdiVal-Benchは、インコンテキスト、フローマッチング、拡散パラダイムにまたがる9つの命令タイプと13の最先端編集モデルをカバーするベンチマークである。
論文 参考訳(メタデータ) (2025-09-16T17:45:39Z) - EncQA: Benchmarking Vision-Language Models on Visual Encodings for Charts [13.788477482875855]
マルチモーダル視覚言語モデル(VLM)は、チャート理解ベンチマークにおいて継続的に改善されたスコアを達成し続けている。
本稿では,視覚的エンコーディングと解析タスクの体系的なカバレッジを提供するための新しいベンチマークであるEncQAを紹介する。
9つの最先端VLMの評価結果から、同一タスク内のエンコーディングやタスク間で性能が著しく異なることが明らかとなった。
論文 参考訳(メタデータ) (2025-08-06T17:17:46Z) - RefChartQA: Grounding Visual Answer on Chart Images through Instruction Tuning [63.599057862999]
RefChartQAは、Chart Question Answering(ChartQA)とビジュアルグラウンドを統合した、新しいベンチマークである。
実験により,グラウンド化による空間認識を取り入れることで,応答精度が15%以上向上することが実証された。
論文 参考訳(メタデータ) (2025-03-29T15:50:08Z) - Patch Spatio-Temporal Relation Prediction for Video Anomaly Detection [19.643936110623653]
ビデオ異常検出(VAD)は、特定のコンテキストと時間枠内の異常を識別することを目的としている。
近年の深層学習に基づくVADモデルは,高解像度フレームの生成によって有望な結果を示した。
本稿では, パッチ間関係予測タスクを通じて, VADの自己教師型学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-28T03:07:16Z) - LIGHTEN: Learning Interactions with Graph and Hierarchical TEmporal
Networks for HOI in videos [13.25502885135043]
ビデオから人間と物体の相互作用を分析すると、人間とビデオに存在する物体の関係が特定される。
映像中の複数の粒度の真理を効果的に捉え,視覚的特徴を学習するための階層的アプローチ LIGHTEN を提案する。
V-COCOにおける人間と物体の相互作用検出(88.9%と92.6%)とCAD-120の予測タスクおよび画像ベースHOI検出の競争結果の最先端化を実現した。
論文 参考訳(メタデータ) (2020-12-17T05:44:07Z) - ConsNet: Learning Consistency Graph for Zero-Shot Human-Object
Interaction Detection [101.56529337489417]
画像中のHuman, Action, Object>の形のHOIインスタンスを検出・認識することを目的としたHuman-Object Interaction (HOI) Detectionの問題点を考察する。
我々は、オブジェクト、アクション、インタラクション間の多レベルコンパレンシーは、稀な、あるいは以前には見られなかったHOIのセマンティック表現を生成するための強力な手がかりであると主張している。
提案モデルでは,人-対象のペアの視覚的特徴とHOIラベルの単語埋め込みを入力とし,それらを視覚-意味的関節埋め込み空間にマッピングし,類似度を計測して検出結果を得る。
論文 参考訳(メタデータ) (2020-08-14T09:11:18Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。