論文の概要: See it. Say it. Sorted: Agentic System for Compositional Diagram Generation
- arxiv url: http://arxiv.org/abs/2508.15222v1
- Date: Thu, 21 Aug 2025 04:20:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.177757
- Title: See it. Say it. Sorted: Agentic System for Compositional Diagram Generation
- Title(参考訳): ご覧ください。Sorted: 合成ダイアグラム生成のためのエージェントシステム
- Authors: Hantao Zhang, Jingyang Liu, Ed Li,
- Abstract要約: スケッチ・トゥ・ダイアグラムの生成について研究し、粗い手書きスケッチを正確な構成図に変換する。
視覚言語モデル(VLM)とLarge Language Models(LLM)を結合した学習自由エージェントシステムSorted.を紹介する。
このシステムは、批判的VLMが小さな定性的な編集セットを提案する反復ループを実行し、複数の候補LPMが様々な戦略で更新を合成する。
この設計は、不安定な数値推定よりも定性的推論を優先し、大域的制約(例えば、アライメント、接続性)を保存し、自然に人間のループをサポートする。
- 参考スコア(独自算出の注目度): 0.5079602839359522
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study sketch-to-diagram generation: converting rough hand sketches into precise, compositional diagrams. Diffusion models excel at photorealism but struggle with the spatial precision, alignment, and symbolic structure required for flowcharts. We introduce See it. Say it. Sorted., a training-free agentic system that couples a Vision-Language Model (VLM) with Large Language Models (LLMs) to produce editable Scalable Vector Graphics (SVG) programs. The system runs an iterative loop in which a Critic VLM proposes a small set of qualitative, relational edits; multiple candidate LLMs synthesize SVG updates with diverse strategies (conservative->aggressive, alternative, focused); and a Judge VLM selects the best candidate, ensuring stable improvement. This design prioritizes qualitative reasoning over brittle numerical estimates, preserves global constraints (e.g., alignment, connectivity), and naturally supports human-in-the-loop corrections. On 10 sketches derived from flowcharts in published papers, our method more faithfully reconstructs layout and structure than two frontier closed-source image generation LLMs (GPT-5 and Gemini-2.5-Pro), accurately composing primitives (e.g., multi-headed arrows) without inserting unwanted text. Because outputs are programmatic SVGs, the approach is readily extensible to presentation tools (e.g., PowerPoint) via APIs and can be specialized with improved prompts and task-specific tools. The codebase is open-sourced at https://github.com/hantaoZhangrichard/see_it_say_it_sorted.git.
- Abstract(参考訳): スケッチ・トゥ・ダイアグラムの生成について研究し、粗い手書きスケッチを正確な構成図に変換する。
拡散モデルはフォトリアリズムにおいて優れているが、フローチャートに必要な空間的精度、アライメント、シンボル構造に苦慮している。
私たちはそれを紹介します。
言ってみろ。
落ち着いた。
これは、VLM(Vision-Language Model)とLLM(Large Language Models)を結合して編集可能なスケーラブルベクトルグラフィックス(SVG)プログラムを生成する、トレーニング不要のエージェントシステムである。
システムは、批判的VLMが小さな定性的リレーショナル編集を提案する反復ループを実行し、複数の候補LLMが様々な戦略(保守的>攻撃的、代替的、集中的)でSVG更新を合成し、判断VLMが最良の候補を選択し、安定した改善を確実にする。
この設計は、不安定な数値推定よりも定性的推論を優先し、大域的制約(例えば、アライメント、接続性)を保ち、自然に人間のループ修正をサポートする。
論文のフローチャートから抽出した10のスケッチにおいて,本手法は2つのフロンティアクローズドソース画像生成LLM(GPT-5とGemini-2.5-Pro)よりもレイアウトと構造を忠実に再構築し,不要なテキストを挿入することなくプリミティブ(例えばマルチヘッド矢印)を正確に構成する。
アウトプットはプログラマティックなSVGなので、APIによるプレゼンテーションツール(PowerPointなど)に容易に拡張可能で、プロンプトの改善やタスク固有のツールに特化することができる。
コードベースはhttps://github.com/hantaoZhangrichard/see_it_say_sorted.gitでオープンソース化されている。
関連論文リスト
- SVGen: Interpretable Vector Graphics Generation with Large Language Models [61.62816031675714]
本稿では,自然言語記述と組み合わせた高品質なSVGの大規模データセットであるSVG-1Mを紹介する。
我々は、セマンティックガイダンスを強化するために、Chain of Thoughtアノテーション付きのサブセットを含む、SVGトレーニングペアに整合したテキストを作成する。
このデータセットに基づいて,自然言語入力からSVGコードを生成するエンド・ツー・エンド・モデルであるSVGenを提案する。
論文 参考訳(メタデータ) (2025-08-06T15:00:24Z) - SketchAgent: Generating Structured Diagrams from Hand-Drawn Sketches [54.06877048295693]
SketchAgentは手描きスケッチの構造化図への変換を自動化するシステムである。
SketchAgentは、スケッチ認識、シンボリック推論、反復検証を統合し、セマンティックコヒーレントで構造的に正確な図を生成する。
ダイアグラム生成プロセスの合理化によって、SketchAgentはデザイン、教育、エンジニアリングの分野で大きな可能性を秘めています。
論文 参考訳(メタデータ) (2025-08-02T07:22:51Z) - Align-GRAG: Reasoning-Guided Dual Alignment for Graph Retrieval-Augmented Generation [75.9865035064794]
大きな言語モデル(LLM)は目覚ましい能力を示しているが、幻覚や時代遅れの情報といった問題に苦戦している。
Retrieval-augmented Generation (RAG) は、情報検索システム(IR)を用いて、外部知識のLLM出力を基底にすることで、これらの問題に対処する。
本稿では、検索後句における新しい推論誘導二重アライメントフレームワークであるAlign-GRAGを提案する。
論文 参考訳(メタデータ) (2025-05-22T05:15:27Z) - From Text to Visuals: Using LLMs to Generate Math Diagrams with Vector Graphics [4.012351415340318]
大規模言語モデル(LLM)は、教師と学生の両方のサポートを自動化することで、数学教育を強化する新しい可能性を提供する。
LLMを使ってスケーラブルベクトルグラフ(SVG)を生成する最近の研究は、図作成を自動化するための有望なアプローチを示している。
本稿では,(1)問題解のヒントを自動的に生成し,それらの品質を評価する方法,(2)SVGが数学図の効果的な中間表現であるかどうか,(3)正確なSVGベースの図を生成するためには,LSMがどのような戦略や形式を必要とするのか,という3つの研究課題に対処する。
論文 参考訳(メタデータ) (2025-03-10T15:13:38Z) - Visually Descriptive Language Model for Vector Graphics Reasoning [76.42082386029206]
低レベル視覚知覚と高レベル言語推論のギャップを埋めるための視覚記述型言語モデル(VDLM)を提案する。
VDLMは,様々なマルチモーダル認識および推論タスクにおいて,GPT-4oのような最先端のLMMを大幅に改善することを示す。
論文 参考訳(メタデータ) (2024-04-09T17:30:18Z) - SVGDreamer: Text Guided SVG Generation with Diffusion Model [31.76771064173087]
SVGDreamerと呼ばれる新しいテキスト誘導ベクトルグラフィックス合成法を提案する。
SIVEプロセスは、前景オブジェクトと背景への合成の分解を可能にする。
VPSDアプローチは、形状の平滑化、彩度の過飽和、多様性の制限、収束の遅い問題に対処する。
論文 参考訳(メタデータ) (2023-12-27T08:50:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。