論文の概要: VCG-Bench: Towards A Unified Visual-Centric Benchmark for Structured Generation and Editing
- arxiv url: http://arxiv.org/abs/2605.15677v1
- Date: Fri, 15 May 2026 06:59:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.201991
- Title: VCG-Bench: Towards A Unified Visual-Centric Benchmark for Structured Generation and Editing
- Title(参考訳): VCG-Bench:構造化生成と編集のための統一されたビジュアル中心ベンチマークを目指して
- Authors: Xiaoyan Su, Peijie Dong, Zhenheng Tang, Song Tang, Yuyao Zhai, Kaitao Lin, Liang Chen, Gai Yuhang, Yuyu Luo, Qiang Wang, Xiaowen Chu,
- Abstract要約: 本稿では、視覚中心のttmxGraphタスクの統一ベンチマークであるVCG-Benchを紹介する。
VCG-Benchは、(1)6つのドメインと15のサブドメインにまたがる1,449の多様なダイアグラムからなる分類データセット、(2)生成(Vision-to-Code)と編集可能性(Code-to-Code)を統合するパラダイム定義、(3)textttmxGraph実行成功率、スタイル一貫性スコア(SCS)などの多次元メトリクスを利用するテーラー評価プロトコルを含む。
- 参考スコア(独自算出の注目度): 37.60481878724908
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the rapid advancements in Vision-Language Models (VLMs), a critical gap remains in their ability to handle structured, controllable diagrammatic tasks essential for professional workflows. Existing methods predominantly rely on pixel-based synthesis, which operates in probabilistic pixel spaces and is inherently limited in editability and fidelity. Instead, we propose a new Diagram-as-Code paradigm with symbolic logic that leverages mxGraph Extensible Markup Language (XML) for precise diagram generation and editing. We present VCG-Bench, a unified benchmark for visual-centric \texttt{mxGraph} tasks. VCG-Bench comprises: (1) a taxonomized dataset of 1,449 diverse diagrams spanning 6 domains and 15 sub-domains, (2) a paradigm definition that integrates Generation (Vision-to-Code) and Editability (Code-to-Code), (3) a Tailored Evaluation Protocol employing multi-dimensional metrics such as \texttt{mxGraph} Execution Success Rate, Style Consistency Score (SCS), etc. Experimental results highlight the challenges faced by current State-of-the-Art (SOTA) VLMs in structured fidelity and instruction compliance, reflecting their vision and reasoning capabilities.
- Abstract(参考訳): VLM(Vision-Language Models)の急速な進歩にもかかわらず、プロのワークフローに不可欠な構造化された制御可能な図式タスクを扱う能力において、重要なギャップは依然として残っている。
既存の手法は主に画素ベースの合成に依存しており、確率的画素空間で機能し、本質的に編集性と忠実性に制限されている。
代わりに、mxGraph Extensible Markup Language(XML)を利用して正確なダイアグラム生成と編集を行うシンボリックロジックを備えた新しいダイアグラム・アズ・コードパラダイムを提案する。
本稿では,視覚中心型 \texttt{mxGraph} タスクの統一ベンチマークである VCG-Bench を提案する。
VCG-Benchは、(1)6つのドメインと15のサブドメインにまたがる1,449の多様なダイアグラムからなる分類データセット、(2)生成(Vision-to-Code)と編集可能性(Code-to-Code)を統合するパラダイム定義、(3) \texttt{mxGraph}の実行成功率、スタイル一貫性スコア(SCS)などの多次元メトリクスを利用するテーラー評価プロトコルを含む。
実験結果から,現状のSOTA(State-of-the-Art)VLMが抱える課題は,そのビジョンと推論能力に反映して,構造化された忠実さと命令順守であることがわかった。
関連論文リスト
- OmniDiagram: Advancing Unified Diagram Code Generation via Visual Interrogation Reward [8.227370271724162]
ビジュアル・インターロゲーション・エフェクト・オール(textscViva)という新しい視覚フィードバック戦略を導入する。
textscVivaは、生成的アプローチを通じて描画された図形の視覚構造に報酬を与える。
最初の大規模図形コード生成データセットであるM3$2$Diagramを構築した。
論文 参考訳(メタデータ) (2026-04-07T07:10:24Z) - See or Say Graphs: Agent-Driven Scalable Graph Understanding with Vision-Language Models [34.29171455515379]
本稿では,グラフ理解におけるスケーラビリティとモダリティの協調性を両立する統合フレームワークを提案する。
スケーラビリティのため、GraphVistaはグラフ情報を階層的に軽量なGraphRAGベースに整理する。
モダリティ調整のために、GraphVistaはタスクを最も適切なモダリティにルーティングする計画エージェントを導入した。
論文 参考訳(メタデータ) (2025-10-19T09:20:44Z) - GILT: An LLM-Free, Tuning-Free Graph Foundational Model for In-Context Learning [50.40400074353263]
グラフニューラルネットワーク(GNN)は、リレーショナルデータを先行する強力なツールであるが、しばしば目に見えないグラフに一般化するのに苦労する。
textbfGraph textbfIn-context textbfL textbfTransformer (GILT)を導入する。
論文 参考訳(メタデータ) (2025-10-06T08:09:15Z) - FOCUS: Unified Vision-Language Modeling for Interactive Editing Driven by Referential Segmentation [55.01077993490845]
最近のLVLM(Large Vision Language Models)は、視覚的理解と生成的モデリングを統一する有望な能力を示している。
本稿では,分割認識と制御可能なオブジェクト中心生成をエンドツーエンドフレームワークに統合した統合LVLMであるFOCUSを紹介する。
論文 参考訳(メタデータ) (2025-06-20T07:46:40Z) - Draw with Thought: Unleashing Multimodal Reasoning for Scientific Diagram Generation [4.246322465055928]
そこで我々は,MLLMを指導し,図形を編集可能なmxGraph XMLコードに再構成する学習自由フレームワークDaw with Thought (DwT)を提案する。
DwTはモデル微調整なしで解釈可能で制御可能な出力を可能にする。
Plot2XMLは、ゴールドスタンダードのXMLアノテーションを備えた247の現実世界の科学図のベンチマークです。
論文 参考訳(メタデータ) (2025-04-13T08:22:09Z) - LLM as GNN: Graph Vocabulary Learning for Text-Attributed Graph Foundation Models [87.68057302738457]
Text-Attributed Graphs (TAG) は、現実のシナリオにおいてユビキタスである。
大規模言語モデル(LLMs)とグラフニューラルネットワーク(GNNs)をTAGsに統合する努力にもかかわらず、既存のアプローチは分離されたアーキテクチャに悩まされている。
本稿では,グラフ語彙学習に基づくTAGのための汎用GFMであるPromptGFMを提案する。
論文 参考訳(メタデータ) (2025-03-05T09:45:22Z) - A Pure Transformer Pretraining Framework on Text-attributed Graphs [50.833130854272774]
グラフ構造を先行として扱うことで,特徴中心の事前学習の視点を導入する。
我々のフレームワークであるGraph Sequence Pretraining with Transformer (GSPT)はランダムウォークを通してノードコンテキストをサンプリングする。
GSPTはノード分類とリンク予測の両方に容易に適応でき、様々なデータセットで有望な経験的成功を示す。
論文 参考訳(メタデータ) (2024-06-19T22:30:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。