論文の概要: DeTikZify: Synthesizing Graphics Programs for Scientific Figures and Sketches with TikZ
- arxiv url: http://arxiv.org/abs/2405.15306v3
- Date: Wed, 06 Nov 2024 09:49:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-07 19:21:34.434028
- Title: DeTikZify: Synthesizing Graphics Programs for Scientific Figures and Sketches with TikZ
- Title(参考訳): DeTikZify:TikZによる科学図とスケッチのためのグラフィックプログラムの合成
- Authors: Jonas Belouadi, Simone Paolo Ponzetto, Steffen Eger,
- Abstract要約: DeTikZifyは、科学的な人物をセマンティクスを保存するTikZグラフィックスプログラムとして自動的に合成する新しい言語モデルである。
DaTikZv2、SketchFig、MetaFigの3つの新しいデータセットを作成します。
私たちはMetaFigとDaTikZv2でDeTikZifyをトレーニングし、SketchFigから学んだ合成スケッチをトレーニングします。
- 参考スコア(独自算出の注目度): 32.12690388609568
- License:
- Abstract: Creating high-quality scientific figures can be time-consuming and challenging, even though sketching ideas on paper is relatively easy. Furthermore, recreating existing figures that are not stored in formats preserving semantic information is equally complex. To tackle this problem, we introduce DeTikZify, a novel multimodal language model that automatically synthesizes scientific figures as semantics-preserving TikZ graphics programs based on sketches and existing figures. To achieve this, we create three new datasets: DaTikZv2, the largest TikZ dataset to date, containing over 360k human-created TikZ graphics; SketchFig, a dataset that pairs hand-drawn sketches with their corresponding scientific figures; and MetaFig, a collection of diverse scientific figures and associated metadata. We train DeTikZify on MetaFig and DaTikZv2, along with synthetically generated sketches learned from SketchFig. We also introduce an MCTS-based inference algorithm that enables DeTikZify to iteratively refine its outputs without the need for additional training. Through both automatic and human evaluation, we demonstrate that DeTikZify outperforms commercial Claude 3 and GPT-4V in synthesizing TikZ programs, with the MCTS algorithm effectively boosting its performance. We make our code, models, and datasets publicly available.
- Abstract(参考訳): 紙にアイデアをスケッチするのは比較的簡単だが、高品質の科学的人物を作るのは時間と手間がかかり難い。
さらに、意味情報を保存しているフォーマットに格納されていない既存のフィギュアを再現することは、同様に複雑である。
この問題を解決するために,スケッチや既存図形に基づくTikZグラフィクスプログラムとして科学図形を自動的に合成する,新しいマルチモーダル言語モデルDeTikZifyを導入する。
これを実現するために、これまでで最大のTikZデータセットであるDaTikZv2と、360k以上の人間が作成したTikZグラフィックスを含むSketchFig、手書きのスケッチと対応する科学図とを組み合わせたデータセットであるSketchFig、さまざまな科学図と関連するメタデータのコレクションであるMetaFigの3つの新しいデータセットを作成しました。
私たちはMetaFigとDaTikZv2でDeTikZifyをトレーニングし、SketchFigから学んだ合成スケッチをトレーニングします。
また、MCTSベースの推論アルゴリズムを導入し、DeTikZifyが追加のトレーニングを必要とせずに出力を反復的に洗練できるようにする。
DeTikZifyは,TikZプログラムの合成において商業的Claude 3とGPT-4Vよりも優れた性能を示し,MCTSアルゴリズムによりその性能を効果的に向上させる。
コード、モデル、データセットを公開しています。
関連論文リスト
- Multi-Style Facial Sketch Synthesis through Masked Generative Modeling [17.313050611750413]
本稿では,画像と対応するマルチスタイリズドスケッチを効率よく変換する軽量なエンドツーエンド合成モデルを提案する。
本研究では,半教師付き学習を学習プロセスに取り入れることで,データ不足の問題を克服する。
提案手法は,複数のベンチマークで従来アルゴリズムより常に優れていた。
論文 参考訳(メタデータ) (2024-08-22T13:45:04Z) - Towards Effective and Efficient Continual Pre-training of Large Language Models [163.34610964970258]
CPT(Continuous pre-training)は、特定のドメインやタスクに言語モデルを適用する上で重要なアプローチである。
本稿では,Llama-3 (8B) の継続事前訓練に関する技術的報告を報告する。
バックボーンモデルの中国語能力と科学的推論能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-07-26T13:55:21Z) - SketchTriplet: Self-Supervised Scenarized Sketch-Text-Image Triplet Generation [6.39528707908268]
シーンスケッチ用の大規模なペアデータセットは引き続き欠如している。
本稿では,既存のシーンスケッチに依存しないシーンスケッチ生成のための自己教師型手法を提案する。
シーンスケッチを中心にした大規模なデータセットをコントリビュートし、セマンティックに一貫した「テキスト・スケッチ・イメージ」三つ子を含む。
論文 参考訳(メタデータ) (2024-05-29T06:43:49Z) - SketchGPT: Autoregressive Modeling for Sketch Generation and Recognition [4.6519578789100215]
SketchGPTはフレキシブルなフレームワークで、シーケンスからシーケンスへの自動回帰モデルを用いてスケッチ生成と補完を行う。
複雑なスケッチを抽象的プリミティブの単純化されたシーケンスにマッピングすることで、自動回帰モデリングのための入力を大幅に合理化する。
論文 参考訳(メタデータ) (2024-05-06T01:24:14Z) - Sketch3D: Style-Consistent Guidance for Sketch-to-3D Generation [55.73399465968594]
本稿では,テキスト記述と一致する色と入力スケッチに整合した形状のリアルな3Dアセットを生成するための,新しい生成パラダイムSketch3Dを提案する。
3つの戦略は、3次元ガウスの最適化、すなわち分布伝達機構による構造最適化、直感的なMSE損失による色最適化、CLIPに基づく幾何学的類似性損失によるスケッチ類似性最適化である。
論文 参考訳(メタデータ) (2024-04-02T11:03:24Z) - Doodle Your 3D: From Abstract Freehand Sketches to Precise 3D Shapes [118.406721663244]
本稿では,抽象モデリングとクロスモーダル対応を容易にする,新しい部分レベルモデリング・アライメントフレームワークを提案する。
提案手法は,CLIPassoエッジマップと投影された3次元部分領域との対応性を確立することで,スケッチモデリングにシームレスに拡張する。
論文 参考訳(メタデータ) (2023-12-07T05:04:33Z) - AutomaTikZ: Text-Guided Synthesis of Scientific Vector Graphics with
TikZ [38.2820447703639]
我々は,120kのTikZ図面をキャプションに並べた最初の大規模TikZデータセットであるDaTikZを紹介する。
DaTikZ上でLLaMAを微調整し、マルチモーダルCLIP埋め込みでLLaMAを増強する新しいモデルCLiMAと組み合わせる。
ヒトおよび自動評価では、CLiMAとLLaMAは、人造図と類似性の観点から、商業的なGPT-4とClaude 2を上回っている。
論文 参考訳(メタデータ) (2023-09-30T13:15:49Z) - SENS: Part-Aware Sketch-based Implicit Neural Shape Modeling [124.3266213819203]
SENSは手描きスケッチから3Dモデルを生成し編集するための新しい手法である。
SENSはスケッチを分析し、部品をViTパッチエンコーディングにエンコードする。
SENSは部分再構成による精細化をサポートし、微調整とアーティファクトの除去を可能にする。
論文 参考訳(メタデータ) (2023-06-09T17:50:53Z) - DiffSketching: Sketch Control Image Synthesis with Diffusion Models [10.172753521953386]
スケッチ・ツー・イメージ合成のためのディープラーニングモデルは、視覚的な詳細なしに歪んだ入力スケッチを克服する必要がある。
我々のモデルは、クロスドメイン制約を通じてスケッチにマッチし、画像合成をより正確に導くために分類器を使用する。
我々のモデルは、生成品質と人的評価の点でGANベースの手法に勝ることができ、大規模なスケッチ画像データセットに依存しない。
論文 参考訳(メタデータ) (2023-05-30T07:59:23Z) - FS-COCO: Towards Understanding of Freehand Sketches of Common Objects in
Context [112.07988211268612]
フリーハンドシーンスケッチの最初のデータセットであるFS-COCOを用いてスケッチ研究を進めた。
本データセットは,100名の非専門家による1点あたりの時空間情報付きフリーハンドシーンベクトルスケッチからなる。
フリーハンドシーンのスケッチやスケッチのキャプションからきめ細かい画像検索の問題が初めて研究された。
論文 参考訳(メタデータ) (2022-03-04T03:00:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。