論文の概要: SketchAgent: Generating Structured Diagrams from Hand-Drawn Sketches
- arxiv url: http://arxiv.org/abs/2508.01237v1
- Date: Sat, 02 Aug 2025 07:22:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.778409
- Title: SketchAgent: Generating Structured Diagrams from Hand-Drawn Sketches
- Title(参考訳): SketchAgent: 手描きスケッチから構造化ダイアグラムを生成する
- Authors: Cheng Tan, Qi Chen, Jingxuan Wei, Gaowei Wu, Zhangyang Gao, Siyuan Li, Bihui Yu, Ruifeng Guo, Stan Z. Li,
- Abstract要約: SketchAgentは手描きスケッチの構造化図への変換を自動化するシステムである。
SketchAgentは、スケッチ認識、シンボリック推論、反復検証を統合し、セマンティックコヒーレントで構造的に正確な図を生成する。
ダイアグラム生成プロセスの合理化によって、SketchAgentはデザイン、教育、エンジニアリングの分野で大きな可能性を秘めています。
- 参考スコア(独自算出の注目度): 54.06877048295693
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hand-drawn sketches are a natural and efficient medium for capturing and conveying ideas. Despite significant advancements in controllable natural image generation, translating freehand sketches into structured, machine-readable diagrams remains a labor-intensive and predominantly manual task. The primary challenge stems from the inherent ambiguity of sketches, which lack the structural constraints and semantic precision required for automated diagram generation. To address this challenge, we introduce SketchAgent, a multi-agent system designed to automate the transformation of hand-drawn sketches into structured diagrams. SketchAgent integrates sketch recognition, symbolic reasoning, and iterative validation to produce semantically coherent and structurally accurate diagrams, significantly reducing the need for manual effort. To evaluate the effectiveness of our approach, we propose the Sketch2Diagram Benchmark, a comprehensive dataset and evaluation framework encompassing eight diverse diagram categories, such as flowcharts, directed graphs, and model architectures. The dataset comprises over 6,000 high-quality examples with token-level annotations, standardized preprocessing, and rigorous quality control. By streamlining the diagram generation process, SketchAgent holds great promise for applications in design, education, and engineering, while offering a significant step toward bridging the gap between intuitive sketching and machine-readable diagram generation. The benchmark is released at https://huggingface.co/datasets/DiagramAgent/Sketch2Diagram-Benchmark.
- Abstract(参考訳): 手描きのスケッチは、アイデアを捉え、伝達するための自然で効率的な媒体である。
制御可能な自然画像生成の大幅な進歩にもかかわらず、フリーハンドスケッチを構造化された機械可読図に変換することは、労働集約的で主に手作業である。
主な課題は、自動図生成に必要な構造的制約と意味的精度が欠如しているスケッチの本質的な曖昧さに起因している。
この課題に対処するために,手描きスケッチの構造化図への変換を自動化するために設計されたマルチエージェントシステムであるSketchAgentを紹介する。
SketchAgentは、スケッチ認識、シンボリック推論、反復検証を統合して、セマンティックコヒーレントで構造的に正確な図を生成する。
提案手法の有効性を評価するため,フローチャートや有向グラフ,モデルアーキテクチャといった8つのダイアグラムカテゴリを含む包括的データセットと評価フレームワークであるSketch2Diagram Benchmarkを提案する。
データセットには、トークンレベルのアノテーション、標準化された前処理、厳格な品質管理を備えた6,000以上の高品質な例が含まれている。
ダイアグラム生成プロセスの合理化によって、SketchAgentはデザイン、教育、エンジニアリングのアプリケーションに大いに期待でき、直感的なスケッチとマシン可読なダイアグラム生成のギャップを埋めるための重要なステップを提供する。
ベンチマークはhttps://huggingface.co/datasets/DiagramAgent/Sketch2Diagram-Benchmarkで公開されている。
関連論文リスト
- SwiftSketch: A Diffusion Model for Image-to-Vector Sketch Generation [57.47730473674261]
我々は,画像条件付きベクトルスケッチ生成モデルであるSwiftSketchを紹介した。
SwiftSketchは、ガウス分布からサンプリングされたストローク制御ポイントを段階的に復調することによって動作する。
ControlSketchは、深度認識制御ネットを通じて正確な空間制御を組み込むことで、SDSベースの技術を強化する方法である。
論文 参考訳(メタデータ) (2025-02-12T18:57:12Z) - SketchTriplet: Self-Supervised Scenarized Sketch-Text-Image Triplet Generation [6.39528707908268]
シーンスケッチ用の大規模なペアデータセットは引き続き欠如している。
本稿では,既存のシーンスケッチに依存しないシーンスケッチ生成のための自己教師型手法を提案する。
シーンスケッチを中心にした大規模なデータセットをコントリビュートし、セマンティックに一貫した「テキスト・スケッチ・イメージ」三つ子を含む。
論文 参考訳(メタデータ) (2024-05-29T06:43:49Z) - SketchGPT: Autoregressive Modeling for Sketch Generation and Recognition [4.6519578789100215]
SketchGPTはフレキシブルなフレームワークで、シーケンスからシーケンスへの自動回帰モデルを用いてスケッチ生成と補完を行う。
複雑なスケッチを抽象的プリミティブの単純化されたシーケンスにマッピングすることで、自動回帰モデリングのための入力を大幅に合理化する。
論文 参考訳(メタデータ) (2024-05-06T01:24:14Z) - I Know What You Draw: Learning Grasp Detection Conditioned on a Few
Freehand Sketches [74.63313641583602]
そこで本研究では,スケッチ画像に関連のある潜在的な把握構成を生成する手法を提案する。
私たちのモデルは、現実世界のアプリケーションで簡単に実装できるエンドツーエンドで訓練され、テストされています。
論文 参考訳(メタデータ) (2022-05-09T04:23:36Z) - SketchyCOCO: Image Generation from Freehand Scene Sketches [71.85577739612579]
本稿では,シーンレベルのフリーハンドスケッチから画像の自動生成手法を提案する。
主要なコントリビューションは、EdgeGANと呼ばれる属性ベクトルをブリッジしたGeneversarative Adrial Networkである。
我々はSketchyCOCOと呼ばれる大規模複合データセットを構築し、ソリューションをサポートし評価した。
論文 参考訳(メタデータ) (2020-03-05T14:54:10Z) - Sketchformer: Transformer-based Representation for Sketched Structure [12.448155157592895]
Sketchformerは、ベクトル形式で入力された自由ハンドスケッチを符号化するトランスフォーマーベースの表現である。
連続的およびトークン化された入力表現を探索するいくつかの変種を報告し、それらの性能を対比する。
我々の学習した埋め込みは辞書学習トークン化方式によって駆動され、分類および画像検索タスクにおける技術性能の状態を出力する。
論文 参考訳(メタデータ) (2020-02-24T17:11:53Z) - Deep Self-Supervised Representation Learning for Free-Hand Sketch [51.101565480583304]
フリーハンドスケッチにおける自己指導型表現学習の課題に対処する。
自己教師型学習パラダイムの成功の鍵は、スケッチ固有の設計にある。
提案手法は最先端の教師なし表現学習法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-02-03T16:28:29Z) - Deep Plastic Surgery: Robust and Controllable Image Editing with
Human-Drawn Sketches [133.01690754567252]
スケッチベースの画像編集は、人間の描いたスケッチによって提供される構造情報に基づいて、写真を合成し、修正することを目的としている。
Deep Plastic Surgeryは、手書きのスケッチ入力を使って画像のインタラクティブな編集を可能にする、新しくて堅牢で制御可能な画像編集フレームワークである。
論文 参考訳(メタデータ) (2020-01-09T08:57:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。