論文の概要: OmniDiagram: Advancing Unified Diagram Code Generation via Visual Interrogation Reward
- arxiv url: http://arxiv.org/abs/2604.05514v1
- Date: Tue, 07 Apr 2026 07:10:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.676377
- Title: OmniDiagram: Advancing Unified Diagram Code Generation via Visual Interrogation Reward
- Title(参考訳): OmniDiagram:ビジュアル・インターロゲーション・リワードによる統一ダイアグラムコード生成の促進
- Authors: Haoyue Yang, Xuanle Zhao, Xuexin Liu, Feibang Jiang, Yao Zhu,
- Abstract要約: ビジュアル・インターロゲーション・エフェクト・オール(textscViva)という新しい視覚フィードバック戦略を導入する。
textscVivaは、生成的アプローチを通じて描画された図形の視覚構造に報酬を与える。
最初の大規模図形コード生成データセットであるM3$2$Diagramを構築した。
- 参考スコア(独自算出の注目度): 8.227370271724162
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The paradigm of programmable diagram generation is evolving rapidly, playing a crucial role in structured visualization. However, most existing studies are confined to a narrow range of task formulations and language support, constraining their applicability to diverse diagram types. In this work, we propose OmniDiagram, a unified framework that incorporates diverse diagram code languages and task definitions. To address the challenge of aligning code logic with visual fidelity in Reinforcement Learning (RL), we introduce a novel visual feedback strategy named Visual Interrogation Verifies All (\textsc{Viva}). Unlike brittle syntax-based rules or pixel-level matching, \textsc{Viva} rewards the visual structure of rendered diagrams through a generative approach. Specifically, \textsc{Viva} actively generates targeted visual inquiries to scrutinize diagram visual fidelity and provides fine-grained feedback for optimization. This mechanism facilitates a self-evolving training process, effectively obviating the need for manually annotated ground truth code. Furthermore, we construct M3$^2$Diagram, the first large-scale diagram code generation dataset, containing over 196k high-quality instances. Experimental results confirm that the combination of SFT and our \textsc{Viva}-based RL allows OmniDiagram to establish a new state-of-the-art (SOTA) across diagram code generation benchmarks.
- Abstract(参考訳): プログラマブルダイアグラム生成のパラダイムは急速に進化しており、構造化された可視化において重要な役割を担っている。
しかし、既存のほとんどの研究はタスクの定式化と言語サポートに限られており、様々な図型に適用可能である。
本稿では,多様な図形コード言語とタスク定義を組み込んだ統合フレームワークであるOmniDiagramを提案する。
強化学習(RL)において、コードロジックを視覚的忠実度に整合させるという課題に対処するため、ビジュアル・インターロゲーション・検証・オール(\textsc{Viva})と呼ばれる新しい視覚的フィードバック戦略を導入する。
脆い構文ベースの規則やピクセルレベルのマッチングとは異なり、 \textsc{Viva} は生成的アプローチを通じて描画された図形の視覚構造に報酬を与える。
具体的には、図形の視覚的忠実度を精査し、最適化のためのきめ細かいフィードバックを提供するために、ターゲットの視覚的問合せを積極的に生成する。
このメカニズムは自己進化的なトレーニングプロセスを促進し、手動で注釈付けされた真実のコードの必要性を効果的に回避する。
さらに、M3$^2$Diagramは、196k以上の高品質なインスタンスを含む最初の大規模ダイアグラムコード生成データセットである。
実験結果から,SFT と textsc{Viva} ベースの RL を組み合わせることで,OmniDiagram がダイアグラムコード生成ベンチマークにまたがる新たな最先端 (SOTA) を確立できることが確認された。
関連論文リスト
- MURE: Hierarchical Multi-Resolution Encoding via Vision-Language Models for Visual Document Retrieval [111.99106496142474]
Visual Document Retrieval (VDR)は、微細な視覚的詳細とグローバルな文書構造の両方をキャプチャする表現を必要とする。
既存のVDRモデルは、高解像度文書を処理する際に効率と効率のバランスをとるのに苦労する。
本稿では,X-VisEmbパラダイムを提案する。X-VisEmbパラダイムは,多分解能サンプリングと符号化から,粒度横断的特徴融合から適応的表現蒸留へと進展する。
論文 参考訳(メタデータ) (2026-03-07T15:17:22Z) - Aligning Text, Code, and Vision: A Multi-Objective Reinforcement Learning Framework for Text-to-Visualization [50.13408999553116]
テキスト2Vis生成のための最初の強化学習フレームワークであるRL-Text2Visを提案する。
本手法では,テキストの精度,コードの有効性,可視化品質を共同で最適化する新しい多目的報酬を用いている。
その結果,GRPOは可視化生成における構造的マルチモーダル推論の効果的な戦略として確立された。
論文 参考訳(メタデータ) (2026-01-08T04:29:07Z) - DiagramEval: Evaluating LLM-Generated Diagrams via Graphs [25.040934047462112]
有望な方向性は、SVGとしてテキスト形式で直接デモダイアグラムを生成することである、と我々は主張する。
大規模言語モデルにより生成された実演図の質を評価するために設計された新しい評価指標であるDiagramEvalを提案する。
論文 参考訳(メタデータ) (2025-10-29T17:56:17Z) - SmartCLIP: Modular Vision-language Alignment with Identification Guarantees [59.16312652369709]
Contrastive Language-Image Pre-Traiing (CLIP)citepradford2021 Learningは、コンピュータビジョンとマルチモーダル学習において重要なモデルとして登場した。
CLIPは、多くの画像テキストデータセットにおける潜在的な情報ミスアライメントに苦労し、絡み合った表現に悩まされている。
モジュラー方式で、最も関連性の高い視覚的およびテキスト的表現を特定し、調整する新しいアプローチである。
論文 参考訳(メタデータ) (2025-07-29T22:26:20Z) - Draw with Thought: Unleashing Multimodal Reasoning for Scientific Diagram Generation [4.246322465055928]
そこで我々は,MLLMを指導し,図形を編集可能なmxGraph XMLコードに再構成する学習自由フレームワークDaw with Thought (DwT)を提案する。
DwTはモデル微調整なしで解釈可能で制御可能な出力を可能にする。
Plot2XMLは、ゴールドスタンダードのXMLアノテーションを備えた247の現実世界の科学図のベンチマークです。
論文 参考訳(メタデータ) (2025-04-13T08:22:09Z) - Boosting Chart-to-Code Generation in MLLM via Dual Preference-Guided Refinement [16.22363384653305]
MLLM(Multimodal Large Language Models)は、きめ細かい視覚解析、正確なコード合成、堅牢なクロスモーダル推論を行う。
本稿では、フィードバック駆動の2つのモダリティ報酬機構と反復的な嗜好学習を組み合わせた2つの嗜好誘導改善フレームワークを提案する。
本フレームワークは汎用MLLMの性能を大幅に向上させ,高品質なプロットコードを生成する。
論文 参考訳(メタデータ) (2025-04-03T07:51:20Z) - Instruction Tuning-free Visual Token Complement for Multimodal LLMs [51.138806401996696]
マルチモーダルな大言語モデル(MLLM)は、視覚と言語の間のエレガントな橋渡しを約束している。
本稿では,MLLM が欠落した視覚機能を取り戻すのに役立つ Visual Token Complement フレームワーク (VTC) を提案する。
我々のVTCは、テキスト不関連特徴を特定するためのガイドとしてテキスト・ツー・イメージ生成を統合し、視覚的セレクタを開発し、補完的な視覚的トークンを生成する。
論文 参考訳(メタデータ) (2024-08-09T12:13:01Z) - SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense
Reasoning [61.57887011165744]
マルチモーダルトランスフォーマーはVisual Commonsense Reasoningのタスクにおいて大きな進歩を遂げた。
視覚的なシーングラフを常識的推論に組み込むためのScene Graph Enhanced Image-Text Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-16T03:16:30Z) - Weakly Supervised Visual Semantic Parsing [49.69377653925448]
SGG(Scene Graph Generation)は、画像からエンティティ、述語、それらの意味構造を抽出することを目的としている。
既存のSGGメソッドでは、トレーニングのために何百万もの手動アノテーション付きバウンディングボックスが必要である。
本稿では,ビジュアルセマンティック・パーシング,VSPNet,グラフベースの弱教師付き学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-01-08T03:46:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。