論文の概要: ChartREG++: Towards Benchmarking and Improving Chart Referring Expression Grounding under Diverse referring clues and Multi-Target Referring
- arxiv url: http://arxiv.org/abs/2605.07415v1
- Date: Fri, 08 May 2026 08:07:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.914107
- Title: ChartREG++: Towards Benchmarking and Improving Chart Referring Expression Grounding under Diverse referring clues and Multi-Target Referring
- Title(参考訳): ChartREG++: ディバース参照ヒントとマルチターゲット参照下での表現グラウンディングのベンチマークと改善に向けて
- Authors: Tianhao Niu, Ziyu Han, Qingfu Zhu, Wanxiang Che,
- Abstract要約: 本稿では,複数のローカライゼーション形式,複数の参照対象,多様なグラウンドキュー,多様なチャートタイプをサポートするグラフ参照グラウンドベンチマークを提案する。
代表的マルチモーダル大モデル間での結果は、大きなパフォーマンスギャップを示す。
我々は、合成マスクを用いてインスタンスセグメンテーションモデルをトレーニングし、汎用的なマルチモーダルグラウンドフレームワークに統合する。
- 参考スコア(独自算出の注目度): 46.60256399800486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring expression grounding is a core problem in visual grounding and is widely used as a diagnostic of spatial grounding and reasoning in vision and language models, yet most prior work focuses on natural images. In contrast, existing chart referring expression grounding-related benchmarks remain limited: (1) they largely adopt bounding boxes, constraining localization precision for fine chart elements (2) they mostly assume a single and two referred target instances, failing to handle multi-instance target references; (3) the language expressions over-rely on textual cues or data-rank clues (4) they cover only a narrow range of chart types. To address these issues, we introduce a chart referring expression grounding benchmark that systematically supports multiple localization forms, multiple referred targets, diverse grounding cues and diverse chart types. Results across representative multimodal large models reveal a significant performance gap. We further introduce a code-driven synthesis pipeline that exploits the inherent alignment between plotting programs and rendered chart primitives to derive pixel accurate instance masks across chart element types and granularities. We train an instance segmentation model with the synthesized masks and integrate it into a general-purpose multimodal grounding framework. The resulting system consistently outperforms baselines on our benchmark and generalizes well to a ChartQA-derived real-chart grounding benchmark.
- Abstract(参考訳): 表現接地参照は視覚的接地における中核的な問題であり、視覚モデルや言語モデルにおける空間的接地と推論の診断として広く用いられている。
対照的に、既存のグラフ参照型ベンチマークは限定的であり、(1) 境界ボックスを多く採用し、細部チャート要素のローカライゼーションの精度を制限し、(2) 主に1つの参照対象インスタンスと2つの参照対象インスタンスを仮定し、マルチインスタンスターゲット参照を処理できない、(3) 言語表現はテキストキューやデータランクの手がかりに過度に依存している、(4) グラフの種類は狭い範囲に限られている。
これらの問題に対処するために、複数のローカライゼーション形式、複数の参照対象、多様な接地手段、多様なチャートタイプを体系的にサポートするグラフ参照式接地ベンチマークを導入する。
代表的マルチモーダル大モデル間での結果は、大きなパフォーマンスギャップを示す。
さらに、プロットプログラムと描画されたチャートプリミティブの固有のアライメントを利用したコード駆動合成パイプラインを導入し、チャート要素のタイプや粒度にまたがる画素精度の高いインスタンスマスクを導出する。
我々は、合成マスクを用いてインスタンスセグメンテーションモデルをトレーニングし、汎用的なマルチモーダルグラウンドフレームワークに統合する。
結果として得られたシステムはベンチマークのベースラインを一貫して上回り、ChartQAから派生した実チャートグラウンドベンチマークによく適合する。
関連論文リスト
- ChartAnchor: Chart Grounding with Structural-Semantic Fidelity [19.798612765001746]
チャートグラウンド(英: Chart grounding)とは、チャートの視覚的外観と構造的意味論の間の双方向のアライメントを指す。
ChartAnchorは、8k以上のチャートテーブルコードトリプルのベンチマークである。
マルチレベル評価フレームワークは、セマンティックバリデーション、スタイリスティック分析、知覚メトリクスを統合して、構造的およびコンテンツレベルの正確性を評価する。
論文 参考訳(メタデータ) (2025-11-30T18:28:09Z) - ChartPoint: Guiding MLLMs with Grounding Reflection for Chart Reasoning [54.86473583610112]
グラフの連鎖推論に反射的相互作用を統合するPointCoTを提案する。
位置アノテーションに基づいてMLLMにバウンディングボックスと再レンダリングチャートを生成することで、テキスト推論ステップと視覚的接地領域の接続を確立する。
我々は、いくつかのグラフベンチマークにおいて最先端のモデルであるChartPointQ2とChartPointQ2.5を開発した。
論文 参考訳(メタデータ) (2025-11-29T04:01:55Z) - InterChart: Benchmarking Visual Reasoning Across Decomposed and Distributed Chart Information [44.79888692172093]
視覚言語モデル(VLM)が複数の関連チャートにどの程度うまく関連しているかを評価するための診断ベンチマークであるInterChartを紹介する。
ベンチマークは,個々のチャートに対する現実的推論,合成的に整合したチャートセット間の積分解析,視覚的に複雑な実世界のチャートペアに対する意味推論の3段階に分類する。
論文 参考訳(メタデータ) (2025-08-11T05:19:23Z) - POLYCHARTQA: Benchmarking Large Vision-Language Models with Multilingual Chart Question Answering [69.52231076699756]
PolyChartQAは10の言語で22,606のチャートと26,151の質問応答ペアをカバーする最初の大規模多言語チャート回答ベンチマークである。
我々は、最先端のLLMベースの翻訳を活用し、パイプラインにおける厳密な品質制御を適用し、生成された多言語チャートの言語的および意味的一貫性を確保する。
論文 参考訳(メタデータ) (2025-07-16T06:09:02Z) - Socratic Chart: Cooperating Multiple Agents for Robust SVG Chart Understanding [14.75820681491341]
既存のベンチマークでは、真の視覚的推論ではなく、テキストベースのショートカットと確率的パターンマッチングに依存している。
グラフ画像をスケーラブルベクトルグラフ表現に変換する新しいフレームワークであるSocratic Chartを提案する。
我々のフレームワークは、グラフプリミティブを正確にキャプチャし、推論性能を向上させるために最先端モデルを上回る。
論文 参考訳(メタデータ) (2025-04-14T00:07:39Z) - RefChartQA: Grounding Visual Answer on Chart Images through Instruction Tuning [63.599057862999]
RefChartQAは、Chart Question Answering(ChartQA)とビジュアルグラウンドを統合した、新しいベンチマークである。
実験により,グラウンド化による空間認識を取り入れることで,応答精度が15%以上向上することが実証された。
論文 参考訳(メタデータ) (2025-03-29T15:50:08Z) - Graph-Based Multimodal Contrastive Learning for Chart Question Answering [11.828192162922436]
この研究は、チャートコンポーネントとその基盤構造間の関係を明示的にモデル化する、新しいマルチモーダルシーングラフフレームワークを導入している。
このフレームワークは、視覚グラフとテキストグラフの両方を統合し、構造的特徴と意味的特徴をキャプチャする。
グラフの対照的な学習戦略は、トランスフォーマーデコーダをソフトプロンプトとしてシームレスに組み込むことができるように、モジュール間のノード表現を整列させる。
論文 参考訳(メタデータ) (2025-01-08T06:27:07Z) - Multi-Label Meta Weighting for Long-Tailed Dynamic Scene Graph
Generation [55.429541407920304]
対象と対象のペア間の述語認識は、本質的に不均衡であり、複数ラベルである。
最近の最先端の手法は、主に最も頻繁に発生する述語クラスに焦点を当てている。
偏りのある述語分布を扱うために,多言語メタラーニングフレームワークを導入する。
論文 参考訳(メタデータ) (2023-06-16T18:14:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。