論文の概要: GRAFT: GRaPH and Table Reasoning for Textual Alignment -- A Benchmark for Structured Instruction Following and Visual Reasoning
- arxiv url: http://arxiv.org/abs/2508.15690v1
- Date: Thu, 21 Aug 2025 16:13:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.402047
- Title: GRAFT: GRaPH and Table Reasoning for Textual Alignment -- A Benchmark for Structured Instruction Following and Visual Reasoning
- Title(参考訳): GRAFT: GRaPH and Table Reasoning for Textual Alignment -- 構造化命令追従とビジュアル推論のためのベンチマーク
- Authors: Abhigya Verma, Sriram Puttagunta, Seganrasan Subramanian, Sravan Ramachandran,
- Abstract要約: GRAFTは、命令追従型視覚推論と視覚テキストアライメントのモデルを評価するための構造化マルチモーダルベンチマークである。
生成されたチャートと、Pythonライブラリで作成され、データセマンティクスの制御と明確性を保証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: GRAFT is a structured multimodal benchmark for evaluating models on instruction-following, visual reasoning, and visual-textual alignment tasks. It features programmatically generated charts and synthetically rendered tables, created with Python visualization libraries to ensure control over data semantics, structure, and clarity. Each GRAFT instance pairs a chart or table image with a systematically generated, multi-step analytical question based solely on visual content. Answers are provided in structured formats such as JSON or YAML, supporting consistent evaluation of both reasoning and output format. The benchmark introduces a taxonomy of reasoning types including comparison, trend identification, ranking, aggregation, proportion estimation, and anomaly detection to enable comprehensive assessment. Reference answers follow strict factual and formatting guidelines for precise, aspect-based evaluation. GRAFT offers a unified, scalable framework for fine-grained benchmarking of multimodal models on visually grounded, structured reasoning tasks, setting a new evaluation standard in this field.
- Abstract(参考訳): GRAFTは、命令追従、視覚的推論、視覚的テキストアライメントタスクのモデルを評価するための構造化マルチモーダルベンチマークである。
プログラムで生成されたチャートと、Pythonビジュアライゼーションライブラリで作成され、データセマンティクス、構造、明快さの制御が保証される。
各GRAFTインスタンスは、チャートまたはテーブルイメージと、視覚コンテンツのみに基づいて、体系的に生成された多段階の分析的質問とをペアリングする。
回答はJSONやYAMLのような構造化フォーマットで提供され、推論と出力の両方のフォーマットの一貫性のある評価をサポートする。
このベンチマークでは、比較、傾向識別、ランキング、集計、比率推定、異常検出などの推論タイプの分類を導入し、総合的な評価を可能にしている。
参照された回答は、厳密な事実とフォーマットのガイドラインに従って、正確なアスペクトベースの評価を行う。
GRAFTは、視覚的基盤を持つ構造化推論タスク上で、マルチモーダルモデルのきめ細かいベンチマークを行うための統一的でスケーラブルなフレームワークを提供する。
関連論文リスト
- RefChartQA: Grounding Visual Answer on Chart Images through Instruction Tuning [63.599057862999]
RefChartQAは、Chart Question Answering(ChartQA)とビジュアルグラウンドを統合した、新しいベンチマークである。
実験により,グラウンド化による空間認識を取り入れることで,応答精度が15%以上向上することが実証された。
論文 参考訳(メタデータ) (2025-03-29T15:50:08Z) - Graph-Based Multimodal Contrastive Learning for Chart Question Answering [11.828192162922436]
この研究は、チャートコンポーネントとその基盤構造間の関係を明示的にモデル化する、新しいマルチモーダルシーングラフフレームワークを導入している。
このフレームワークは、視覚グラフとテキストグラフの両方を統合し、構造的特徴と意味的特徴をキャプチャする。
グラフの対照的な学習戦略は、トランスフォーマーデコーダをソフトプロンプトとしてシームレスに組み込むことができるように、モジュール間のノード表現を整列させる。
論文 参考訳(メタデータ) (2025-01-08T06:27:07Z) - HMGIE: Hierarchical and Multi-Grained Inconsistency Evaluation for Vision-Language Data Cleansing [54.970275599061594]
我々は階層的・多階層的不整合評価(HMGIE)と呼ばれる適応的評価フレームワークを設計する。
HMGIEは、様々な画像キャプチャー対の精度と完全性の両方をカバーする多粒度評価を提供する。
提案手法の有効性と柔軟性を検証するため,様々なタイプの画像キャプチャー・データセットであるMVTIDを構築した。
論文 参考訳(メタデータ) (2024-12-07T15:47:49Z) - Doc2SoarGraph: Discrete Reasoning over Visually-Rich Table-Text
Documents via Semantic-Oriented Hierarchical Graphs [79.0426838808629]
視覚的にリッチなテーブルテキスト文書に答えるTAT-DQAを提案する。
具体的には、離散推論機能を強化した新しいDoc2SoarGraphフレームワークを提案する。
我々は,TAT-DQAデータセットに関する広範な実験を行い,提案したフレームワークは,テストセット上でのエクサクティマッチ(EM)とF1スコアでそれぞれ17.73%,F1スコアで16.91%の最高のベースラインモデルを上回る結果を得た。
論文 参考訳(メタデータ) (2023-05-03T07:30:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。