論文の概要: AutomaTikZ: Text-Guided Synthesis of Scientific Vector Graphics with
TikZ
- arxiv url: http://arxiv.org/abs/2310.00367v1
- Date: Sat, 30 Sep 2023 13:15:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 04:37:48.824486
- Title: AutomaTikZ: Text-Guided Synthesis of Scientific Vector Graphics with
TikZ
- Title(参考訳): AutomaTikZ:TikZによる科学ベクトルグラフのテキストガイド合成
- Authors: Jonas Belouadi, Anne Lauscher, Steffen Eger
- Abstract要約: 本稿では,最初の大規模TikZデータセットであるDaTikZを紹介する。
DaTikZ上でLLaMAを微調整し、マルチモーダルCLIP埋め込みでLLaMAを増強する新しいモデルCLiMAと組み合わせる。
ヒトおよび自動評価では、CLiMAとLLaMAは、人造図と類似性の観点から、商業的なGPT-4とClaude 2を上回っている。
- 参考スコア(独自算出の注目度): 38.2820447703639
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating bitmap graphics from text has gained considerable attention, yet
for scientific figures, vector graphics are often preferred. Given that vector
graphics are typically encoded using low-level graphics primitives, generating
them directly is difficult. To address this, we propose the use of TikZ, a
well-known abstract graphics language that can be compiled to vector graphics,
as an intermediate representation of scientific figures. TikZ offers
human-oriented, high-level commands, thereby facilitating conditional language
modeling with any large language model. To this end, we introduce DaTikZ the
first large-scale TikZ dataset, consisting of 120k TikZ drawings aligned with
captions. We fine-tune LLaMA on DaTikZ, as well as our new model CLiMA, which
augments LLaMA with multimodal CLIP embeddings. In both human and automatic
evaluation, CLiMA and LLaMA outperform commercial GPT-4 and Claude 2 in terms
of similarity to human-created figures, with CLiMA additionally improving
text-image alignment. Our detailed analysis shows that all models generalize
well and are not susceptible to memorization. GPT-4 and Claude 2, however, tend
to generate more simplistic figures compared to both humans and our models. We
make our framework, AutomaTikZ, along with model weights and datasets, publicly
available.
- Abstract(参考訳): テキストからビットマップグラフィックスを生成することは注目されているが、科学的にはベクトルグラフィックスが好まれる。
ベクトルグラフィックスは一般に低レベルのグラフィックスプリミティブを使って符号化されるので、直接生成するのは困難である。
これを解決するために,ベクトルグラフィックスにコンパイル可能なよく知られた抽象グラフィック言語であるTikZを,科学図形の中間表現として用いることを提案する。
TikZは、人間指向の高レベルなコマンドを提供し、大きな言語モデルで条件付き言語モデリングを容易にする。
この目的のために,120kのTikZ図面をキャプションに整列させた最初の大規模TikZデータセットであるDaTikZを紹介した。
DaTikZ上でLLaMAを微調整し、マルチモーダルCLIP埋め込みでLLaMAを増強する新しいモデルCLiMAと組み合わせる。
ヒトおよび自動評価では、CLiMAとLLaMAは、人造図形と類似性の観点から、商用のGPT-4とClaude 2を上回り、テキスト画像アライメントも改善した。
詳細な分析により、全てのモデルがよく一般化され、暗記の影響を受けないことが示された。
しかし、GPT-4とClaude 2は、人間と我々のモデルの両方と比較して、より単純な数値を生成する傾向にある。
当社のフレームワークであるAutomaTikZとモデルウェイトとデータセットを公開しています。
関連論文リスト
- DeTikZify: Synthesizing Graphics Programs for Scientific Figures and Sketches with TikZ [32.12690388609568]
DeTikZifyは、科学的な人物をセマンティクスを保存するTikZグラフィックスプログラムとして自動的に合成する新しい言語モデルである。
DaTikZv2、SketchFig、MetaFigの3つの新しいデータセットを作成します。
私たちはMetaFigとDaTikZv2でDeTikZifyをトレーニングし、SketchFigから学んだ合成スケッチをトレーニングします。
論文 参考訳(メタデータ) (2024-05-24T07:48:35Z) - Large Language Models on Graphs: A Comprehensive Survey [77.16803297418201]
グラフ上の大規模言語モデルに関連するシナリオとテクニックを体系的にレビューする。
まず,LLMをグラフに適用する可能性シナリオを,純グラフ,テキスト分散グラフ,テキストペアグラフの3つのカテゴリにまとめる。
本稿では,そのような手法の現実的な応用について論じ,オープンソースコードとベンチマークデータセットを要約する。
論文 参考訳(メタデータ) (2023-12-05T14:14:27Z) - Which Modality should I use -- Text, Motif, or Image? : Understanding Graphs with Large Language Models [14.251972223585765]
本稿では,テキスト,画像,モチーフなどの多様性を持つグラフを符号化する新たな手法を提案する。
また、グラフ構造解析において、LLM(Large Language Models)を評価するための新しいベンチマークであるGraphTMIも提示されている。
論文 参考訳(メタデータ) (2023-11-16T12:45:41Z) - DiagrammerGPT: Generating Open-Domain, Open-Platform Diagrams via LLM Planning [62.51232333352754]
テキスト・ツー・イメージ(T2I)世代はここ数年で著しい成長を遂げている。
それにもかかわらず、T2Iモデルでダイアグラムを生成する作業はほとんど行われていない。
本稿では,新しい2段階のテキスト・ツー・ダイアグラム生成フレームワークであるDiagrammerGPTを紹介する。
我々のフレームワークは、既存のT2Iモデルを上回る精度で、より正確なダイアグラムを生成する。
論文 参考訳(メタデータ) (2023-10-18T17:37:10Z) - Generating Faithful Text From a Knowledge Graph with Noisy Reference
Text [26.6775578332187]
与えられたグラフから忠実な自然言語テキストを生成することができるKG-to-text生成モデルを開発した。
まず、コントラスト学習を利用して、テキスト内の忠実な情報と幻覚的な情報を区別するモデルの能力を強化する。
第2に、制御可能なテキスト生成技術を用いて、デコーダに生成したテキストの幻覚レベルを制御する権限を与える。
論文 参考訳(メタデータ) (2023-08-12T07:12:45Z) - Z-Code++: A Pre-trained Language Model Optimized for Abstractive
Summarization [108.09419317477986]
Z-Code++は、抽象的なテキスト要約に最適化された、新しいトレーニング済み言語モデルである。
このモデルは、まず、言語理解のためのテキストコーパスを用いて事前訓練され、続いて、接地テキスト生成のための要約コーパス上で継続的に事前訓練される。
パラメータ効率はXSumでは600倍のPaLM-540B,SAMSumでは200倍のGPT3-175Bである。
論文 参考訳(メタデータ) (2022-08-21T01:00:54Z) - Photorealistic Text-to-Image Diffusion Models with Deep Language
Understanding [53.170767750244366]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。
テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文 参考訳(メタデータ) (2022-05-23T17:42:53Z) - Font Completion and Manipulation by Cycling Between Multi-Modality
Representations [113.26243126754704]
中間表現としてグラフを用いた2次元グラフィックオブジェクトとしてフォントグリフの生成を探求する。
我々は、画像エンコーダと画像の間のグラフで、モダリティサイクルのイメージ・ツー・イメージ構造を定式化する。
本モデルでは,画像から画像までのベースラインと,それ以前のグリフ補完手法よりも改善された結果を生成する。
論文 参考訳(メタデータ) (2021-08-30T02:43:29Z) - R2D2: Relational Text Decoding with Transformers [18.137828323277347]
グラフ構造とそれらのノードとエッジに関連付けられた自然言語テキストとの相互作用をモデル化する新しいフレームワークを提案する。
提案手法は,グラフィカル構造とテキストのシーケンシャルな性質の両方を利用する。
提案モデルには幅広い応用があるが,データ・テキスト生成タスクにおけるその機能を示す。
論文 参考訳(メタデータ) (2021-05-10T19:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。