Fugu-MT 論文翻訳(概要): Draw with Thought: Unleashing Multimodal Reasoning for Scientific Diagram Generation

論文の概要: Draw with Thought: Unleashing Multimodal Reasoning for Scientific Diagram Generation

arxiv url: http://arxiv.org/abs/2504.09479v1
Date: Sun, 13 Apr 2025 08:22:09 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-23 07:01:20.205431
Title: Draw with Thought: Unleashing Multimodal Reasoning for Scientific Diagram Generation
Title（参考訳）: 科学的ダイアグラム生成のためのマルチモーダル推論
Authors: Zhiqing Cui, Jiahao Yuan, Hanqing Wang, Yanshu Li, Chenxu Du, Zhenglong Ding,
Abstract要約: そこで我々は,MLLMを指導し,図形を編集可能なmxGraph XMLコードに再構成する学習自由フレームワークDaw with Thought (DwT)を提案する。 DwTはモデル微調整なしで解釈可能で制御可能な出力を可能にする。 Plot2XMLは、ゴールドスタンダードのXMLアノテーションを備えた247の現実世界の科学図のベンチマークです。
参考スコア（独自算出の注目度）: 7.501482942867853
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Scientific diagrams are vital tools for communicating structured knowledge across disciplines. However, they are often published as static raster images, losing symbolic semantics and limiting reuse. While Multimodal Large Language Models (MLLMs) offer a pathway to bridging vision and structure, existing methods lack semantic control and structural interpretability, especially on complex diagrams. We propose Draw with Thought (DwT), a training-free framework that guides MLLMs to reconstruct diagrams into editable mxGraph XML code through cognitively-grounded Chain-of-Thought reasoning. DwT enables interpretable and controllable outputs without model fine-tuning by dividing the task into two stages: Coarse-to-Fine Planning, which handles perceptual structuring and semantic specification, and Structure-Aware Code Generation, enhanced by format-guided refinement. To support evaluation, we release Plot2XML, a benchmark of 247 real-world scientific diagrams with gold-standard XML annotations. Extensive experiments across eight MLLMs show that our approach yields high-fidelity, semantically aligned, and structurally valid reconstructions, with human evaluations confirming strong alignment in both accuracy and visual aesthetics, offering a scalable solution for converting static visuals into executable representations and advancing machine understanding of scientific graphics.
Abstract（参考訳）: 科学図は、規律を越えて構造化された知識を伝達するための重要なツールである。しかし、それらはしばしば静的なラスタ画像として公開され、象徴的な意味論を失い、再利用が制限される。 MLLM(Multimodal Large Language Models)は、視覚と構造をブリッジする経路を提供するが、既存の手法には意味制御と構造的解釈性がない。そこで我々は,MLLMを指導する学習自由フレームワークであるDraw with Thought (DwT)を提案する。 DwTは、タスクを2段階に分割することで、モデルの微調整なしに解釈可能で制御可能な出力を可能にする。 Plot2XMLは、ゴールドスタンダードなXMLアノテーションを備えた247の現実世界の科学図のベンチマークです。 8つのMLLMにわたる広範囲な実験により、我々の手法は高い忠実度、セマンティックアライメント、構造的に有効な再構築をもたらすことが示され、人間の評価は精度と視覚美の両面において強い整合性を確認し、静的な視覚を実行可能な表現に変換するスケーラブルなソリューションを提供し、科学グラフィックの機械的理解を前進させる。

関連論文リスト

Quantizing Text-attributed Graphs for Semantic-Structural Integration [6.721504414917793]
テキスト分散グラフ(TAG)は、様々な領域にわたる複雑な関係をモデル化するための強力な表現として登場した。大規模言語モデル(LLM)の台頭に伴い、グラフ学習に彼らの能力を活用することへの関心が高まっている。凍結したコードブックを用いて,グラフ構造情報を離散トークンに直接量子化する,新たな自己教師型フレームワークSTAGを提案する。
論文参考訳（メタデータ） (2025-07-20T09:18:02Z)
SAFT: Structure-Aware Fine-Tuning of LLMs for AMR-to-Text Generation [50.277959544420455]
SAFTは、事前訓練された言語モデルにグラフトポロジーを注入する構造対応の微調整手法である。変換されたAMRの磁気ラプラシアンから方向感応的な位置エンコーディングを計算する。 SAFTはAMR 3.0に新しい最先端を設定、ベースラインを3.5BLEU改善した。
論文参考訳（メタデータ） (2025-07-15T18:12:57Z)
MATHGLANCE: Multimodal Large Language Models Do Not Know Where to Look in Mathematical Diagrams [65.02628814094639]
ダイアグラムは視覚言語の基本形として機能し、複雑な概念と、構造化されたシンボル、形状、空間的配置を通してそれらの相互関係を表現する。現在のベンチマークでは知覚と推論のタスクが明確化されており、マルチモーダルな大規模言語モデルが表面的なパターン認識以上の数学的図形を真に理解しているかどうかを評価することは困難である。 MLLMにおける数学的知覚の分離と評価を目的としたベンチマークであるMATHGLANCEを紹介する。幾何学的プリミティブと正確な空間関係を付加した200K構造幾何画像テキストの知覚指向データセットであるGeoPePを構築した。
論文参考訳（メタデータ） (2025-03-26T17:30:41Z)
Duplex: Dual Prototype Learning for Compositional Zero-Shot Learning [17.013498508426398]
合成ゼロショット学習(CZSL)は、学習中に欠落した視覚状態や物体の新たな構成をモデルが認識できるようにすることを目的としている。そこで我々はDuplexを提案する。Duplexは、セマンティックとビジュアルのプロトタイプを、慎重に設計されたデュアルブランチアーキテクチャを通して統合する新しいデュアルプロトタイプ学習手法である。
論文参考訳（メタデータ） (2025-01-13T08:04:32Z)
Graph-Based Multimodal Contrastive Learning for Chart Question Answering [11.828192162922436]
この研究は、チャートコンポーネントとその基盤構造間の関係を明示的にモデル化する、新しいマルチモーダルシーングラフフレームワークを導入している。このフレームワークは、視覚グラフとテキストグラフの両方を統合し、構造的特徴と意味的特徴をキャプチャする。グラフの対照的な学習戦略は、トランスフォーマーデコーダをソフトプロンプトとしてシームレスに組み込むことができるように、モジュール間のノード表現を整列させる。
論文参考訳（メタデータ） (2025-01-08T06:27:07Z)
GLDesigner: Leveraging Multi-Modal LLMs as Designer for Enhanced Aesthetic Text Glyph Layouts [53.568057283934714]
本稿では,コンテンツ対応のテキストロゴレイアウトを生成するVLM(Vision-Language Model)ベースのフレームワークを提案する。本稿では,複数のグリフ画像を同時に処理するための計算コストを削減する2つのモデル手法を提案する。本モデルでは,既存の公開データセットの5倍の広義のテキストロゴデータセットを2つ構築する。
論文参考訳（メタデータ） (2024-11-18T10:04:10Z)
X-Former: Unifying Contrastive and Reconstruction Learning for MLLMs [49.30255148577368]
X-FormerはCLとMIMの相補的な強度を利用するために設計された軽量トランスフォーマーモジュールである。 X-Formerは、2つの凍結した視覚エンコーダから視覚言語表現学習とマルチモーダル・マルチモーダル生成学習をブートストラップする。さらに、凍結したLLMから視覚から言語への生成学習をブートストラップし、X-Formerの視覚的特徴をLLMで解釈できるようにする。
論文参考訳（メタデータ） (2024-07-18T18:39:54Z)
Multi-View Empowered Structural Graph Wordification for Language Models [12.22063024099311]
本稿では,LLM-graphアライメントのためのエンドツーエンドのモダリティアライメントフレームワークについて紹介する。提案手法は LLM とのトークンレベルアライメントを容易にするために設計されており,グラフの内在的' を理解可能な自然言語に効果的に翻訳することができる。我々のフレームワークは、LLMとGNN間のトークンレベルのアライメントを実現するための、有望な試みである、ある視覚的解釈可能性、効率、堅牢性を保証する。
論文参考訳（メタデータ） (2024-06-19T16:43:56Z)
Explaining Multi-modal Large Language Models by Analyzing their Vision Perception [4.597864989500202]
本研究では,画像埋め込み成分に着目し,MLLMの解釈可能性を高める新しい手法を提案する。オープンワールドのローカライゼーションモデルとMLLMを組み合わせることで、同じビジョンの埋め込みからテキストとオブジェクトのローカライゼーション出力を同時に生成できる新しいアーキテクチャを構築する。
論文参考訳（メタデータ） (2024-05-23T14:24:23Z)
Contextualization Distillation from Large Language Model for Knowledge Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文参考訳（メタデータ） (2024-01-28T08:56:49Z)
Bidirectional Trained Tree-Structured Decoder for Handwritten Mathematical Expression Recognition [51.66383337087724]
Handwriting Mathematical Expression Recognition (HMER) タスクは、OCRの分野における重要な分岐である。近年の研究では、双方向コンテキスト情報の導入により、HMERモデルの性能が大幅に向上することが示されている。本稿では,MF-SLT と双方向非同期トレーニング (BAT) 構造を提案する。
論文参考訳（メタデータ） (2023-12-31T09:24:21Z)
Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal Structured Representations [70.41385310930846]
マルチモーダルな構造表現を強化するためのエンドツーエンドフレームワークであるStructure-CLIPを提案する。シーングラフを用いてセマンティックなネガティブな例の構築をガイドし、その結果、構造化された表現の学習に重点を置いている。知識エンハンス(KEE)は、SGKを入力として活用し、構造化表現をさらに強化するために提案される。
論文参考訳（メタデータ） (2023-05-06T03:57:05Z)
Universal Information Extraction as Unified Semantic Matching [54.19974454019611]
情報抽出を,異なるタスクやスキーマで共有される構造化と概念化という,2つの能力に分割する。このパラダイムに基づいて、統一意味マッチングフレームワークを用いて様々なIEタスクを普遍的にモデル化することを提案する。このように、USMはスキーマと入力テキストを共同でエンコードし、サブ構造を一様に並列に抽出し、必要に応じてターゲット構造を制御できる。
論文参考訳（メタデータ） (2023-01-09T11:51:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。