論文の概要: Flowchart2Mermaid: A Vision-Language Model Powered System for Converting Flowcharts into Editable Diagram Code
- arxiv url: http://arxiv.org/abs/2512.02170v1
- Date: Mon, 01 Dec 2025 20:07:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.588437
- Title: Flowchart2Mermaid: A Vision-Language Model Powered System for Converting Flowcharts into Editable Diagram Code
- Title(参考訳): Flowchart2Mermaid:フローチャートを編集可能なダイアグラムコードに変換するビジョン言語モデルパワードシステム
- Authors: Pritam Deka, Barry Devereux,
- Abstract要約: textscFlow2Mermaidは、フローチャート画像を編集可能なMermaid.jsコードに変換する軽量なWebシステムである。
インターフェースは、混合開始テキスト編集、ドラッグアンドドロップノード挿入、統合AIアシスタントによって解釈される自然言語コマンドをサポートする。
- 参考スコア(独自算出の注目度): 0.3007949058551534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Flowcharts are common tools for communicating processes but are often shared as static images that cannot be easily edited or reused. We present \textsc{Flowchart2Mermaid}, a lightweight web system that converts flowchart images into editable Mermaid.js code which is a markup language for visual workflows, using a detailed system prompt and vision-language models. The interface supports mixed-initiative refinement through inline text editing, drag-and-drop node insertion, and natural-language commands interpreted by an integrated AI assistant. Unlike prior image-to-diagram tools, our approach produces a structured, version-controllable textual representation that remains synchronized with the rendered diagram. We further introduce evaluation metrics to assess structural accuracy, flow correctness, syntax validity, and completeness across multiple models.
- Abstract(参考訳): フローチャートはプロセスを伝えるための一般的なツールであるが、しばしば静的なイメージとして共有され、簡単に編集したり再利用したりできない。
本稿では,フローチャート画像を編集可能なMermaid.jsコードに変換する軽量Webシステムである‘textsc{Flowchart2Mermaid}を,詳細なシステムプロンプトとビジョン言語モデルを用いて提示する。
インターフェースはインラインテキスト編集、ドラッグ・アンド・ドロップノード挿入、統合AIアシスタントによって解釈される自然言語コマンドによる混合初期化をサポートする。
従来の画像とダイアグラムのツールとは違って,本手法では描画図と同期した,構造化されたバージョン管理可能なテキスト表現を生成する。
さらに, 構造的精度, 流れの正確性, 構文的妥当性, 完全性を評価するための評価指標を導入する。
関連論文リスト
- Charts Are Not Images: On the Challenges of Scientific Chart Editing [66.38730113476677]
textitFigEditは、3万以上のサンプルからなる科学的フィギュア編集のベンチマークである。
私たちのベンチマークでは、ピクセルレベルの操作の重大な制限が示されています。
textitFigEdit をリリースすることにより,構造対応図形編集の体系的な進歩の実現を目指す。
論文 参考訳(メタデータ) (2025-11-30T06:13:48Z) - Visual Semantic Description Generation with MLLMs for Image-Text Matching [7.246705430021142]
本稿では,マルチモーダル大言語モデル(MLLM)を視覚的意味論として活用することにより,モダリティギャップを橋渡しする新しいフレームワークを提案する。
提案手法は,(1)視覚特徴とVSDを融合して画像表現の言語表現性を高めることによるインスタンスレベルのアライメント,(2)カテゴリレベルのアライメントを確保するためのVSDクラスタリングによるプロトタイプレベルのアライメントを組み合わせたものである。
論文 参考訳(メタデータ) (2025-07-11T13:38:01Z) - PlotEdit: Natural Language-Driven Accessible Chart Editing in PDFs via Multimodal LLM Agents [47.79080056618323]
PlotEditは、自然言語によるエンドツーエンドのチャート画像編集のための新しいマルチエージェントフレームワークである。
PlotEditは、データテーブル抽出用のChart2Table、スタイル識別用のChart2Vision、レンダリングコードを取得するChart2Code、ユーザリクエストを実行可能なステップに解析するInstruction Decomposition Agent、ニュアンスチャートコンポーネント修正を実装するMultimodal Editing Agentの5つのLLMエージェントをオーケストレーションする。
PlotEditは、スタイル、レイアウト、フォーマット、データ中心の編集で、ChartCraftデータセットの既存のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-01-20T02:31:52Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - Let the Chart Spark: Embedding Semantic Context into Chart with
Text-to-Image Generative Model [7.587729429265939]
画像視覚化は、データとセマンティックコンテキストを視覚表現にシームレスに統合する。
本稿では,テキストから画像への生成モデルに基づく意味コンテキストをグラフに組み込む新しいシステムであるChartSparkを提案する。
本研究では,テキストアナライザ,編集モジュール,評価モジュールを統合したインタラクティブなビジュアルインタフェースを開発し,画像視覚化の生成,修正,評価を行う。
論文 参考訳(メタデータ) (2023-04-28T05:18:30Z) - ChartReader: A Unified Framework for Chart Derendering and Comprehension
without Heuristic Rules [89.75395046894809]
ChartReaderは、チャートのデレンダリングと理解タスクをシームレスに統合する統合フレームワークです。
提案手法には,トランスフォーマーに基づくチャートコンポーネント検出モジュールと,チャートからXまでのタスクに対する事前学習型視覚言語モデルが組み込まれている。
提案するフレームワークは,チャート解析に係わる作業を大幅に削減し,ユニバーサルチャート理解モデルへの一歩を踏み出すことができる。
論文 参考訳(メタデータ) (2023-04-05T00:25:27Z) - ManiTrans: Entity-Level Text-Guided Image Manipulation via Token-wise
Semantic Alignment and Generation [97.36550187238177]
実世界の実体レベルにおけるテキスト誘導画像操作に関する新しい課題について検討する。
このタスクは、(1)テキスト記述と整合したエンティティを編集すること、(2)テキスト関連領域を保存すること、(3)操作されたエンティティを自然に画像にマージすること、の3つの基本的な要件を課している。
本フレームワークでは,操作対象の画像領域を特定するためのセマンティックアライメントモジュールと,視覚と言語の関係の整合を支援するセマンティックアライメントモジュールを備えている。
論文 参考訳(メタデータ) (2022-04-09T09:01:19Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。