論文の概要: TikZero: Zero-Shot Text-Guided Graphics Program Synthesis
- arxiv url: http://arxiv.org/abs/2503.11509v2
- Date: Wed, 19 Mar 2025 12:42:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 12:01:05.750082
- Title: TikZero: Zero-Shot Text-Guided Graphics Program Synthesis
- Title(参考訳): TikZero: ゼロショットテキストガイドグラフィックスプログラムの合成
- Authors: Jonas Belouadi, Eddy Ilg, Margret Keuper, Hideki Tanaka, Masao Utiyama, Raj Dabre, Steffen Eger, Simone Paolo Ponzetto,
- Abstract要約: 本稿では、画像表現を中間ブリッジとして利用して、テキスト理解からグラフィックプログラムを生成するTikZeroを提案する。
グラフィックプログラムとキャプション付き画像の独立したトレーニングを可能にし、ゼロショットテキスト誘導グラフィックプログラムの合成を可能にする。
本手法は,キャプション対応グラフィックスプログラムでのみ動作可能なベースラインを著しく上回ることを示す。
- 参考スコア(独自算出の注目度): 56.35987342339608
- License:
- Abstract: With the rise of generative AI, synthesizing figures from text captions becomes a compelling application. However, achieving high geometric precision and editability requires representing figures as graphics programs in languages like TikZ, and aligned training data (i.e., graphics programs with captions) remains scarce. Meanwhile, large amounts of unaligned graphics programs and captioned raster images are more readily available. We reconcile these disparate data sources by presenting TikZero, which decouples graphics program generation from text understanding by using image representations as an intermediary bridge. It enables independent training on graphics programs and captioned images and allows for zero-shot text-guided graphics program synthesis during inference. We show that our method substantially outperforms baselines that can only operate with caption-aligned graphics programs. Furthermore, when leveraging caption-aligned graphics programs as a complementary training signal, TikZero matches or exceeds the performance of much larger models, including commercial systems like GPT-4o. Our code, datasets, and select models are publicly available.
- Abstract(参考訳): 生成AIの台頭により、テキストキャプションから人物を合成することが魅力的な応用となる。
しかし、高い幾何学的精度と編集性を達成するためには、TikZのような言語でのグラフィックプログラムとして図形を表現する必要がある。
一方、大量の不整合グラフィックスプログラムとキャプション付きラスタイメージがより容易に利用可能である。
画像表現を中間ブリッジとして,テキスト理解からグラフィックプログラム生成を分離するTikZeroを提示することで,これらの異種データソースを再構成する。
グラフィックスプログラムとキャプション付き画像の独立したトレーニングを可能にし、推論中にゼロショットテキスト誘導グラフィックプログラムの合成を可能にする。
本手法は,キャプション対応グラフィックスプログラムでのみ動作可能なベースラインを著しく上回ることを示す。
さらに、字幕対応のグラフィックプログラムを補完的な訓練信号として利用する場合、TikZeroはGPT-4oのような商用システムを含む、はるかに大きなモデルの性能にマッチする。
私たちのコード、データセット、選択モデルが公開されています。
関連論文リスト
- RETTA: Retrieval-Enhanced Test-Time Adaptation for Zero-Shot Video Captioning [69.23782518456932]
Retrieval-Enhanced Test-Time Adaptation (RETTA) と呼ばれる新しいゼロショットビデオキャプションフレームワークを提案する。
一般的なビデオテキスト検索モデルXCLIP、一般的な画像テキストマッチングモデルCLIP、テキストアライメントモデルAnglE、テキスト生成モデルGPT-2の4つのキーモデルを用いてビデオとテキストをブリッジする。
そこで本研究では,GPT-2,XCLIP,CLIP,AnglEの4つのフリーズモデルにおいて,学習可能なトークンを通信媒体として用いることを提案する。
論文 参考訳(メタデータ) (2024-05-11T16:22:00Z) - Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。
i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。
画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文 参考訳(メタデータ) (2024-04-26T15:56:08Z) - Improving Cross-modal Alignment with Synthetic Pairs for Text-only Image
Captioning [13.357749288588039]
以前の作業では、教師なし設定下でのテキスト情報のみに依存して、画像キャプションのためのCLIPのクロスモーダルアソシエーション機能を活用していた。
本稿では,合成画像とテキストのペアを組み込むことにより,これらの問題に対処する新しい手法を提案する。
テキストデータに対応する画像を得るために、事前訓練されたテキスト・ツー・イメージモデルが配置され、CLIP埋め込み空間の実際の画像に対して、生成された画像の擬似特徴を最適化する。
論文 参考訳(メタデータ) (2023-12-14T12:39:29Z) - AutomaTikZ: Text-Guided Synthesis of Scientific Vector Graphics with
TikZ [38.2820447703639]
我々は,120kのTikZ図面をキャプションに並べた最初の大規模TikZデータセットであるDaTikZを紹介する。
DaTikZ上でLLaMAを微調整し、マルチモーダルCLIP埋め込みでLLaMAを増強する新しいモデルCLiMAと組み合わせる。
ヒトおよび自動評価では、CLiMAとLLaMAは、人造図と類似性の観点から、商業的なGPT-4とClaude 2を上回っている。
論文 参考訳(メタデータ) (2023-09-30T13:15:49Z) - Image Captions are Natural Prompts for Text-to-Image Models [70.30915140413383]
本研究では,合成データの学習効果とプロンプトによる合成データ分布の関係を解析した。
本稿では,テキストから画像への生成モデルにより,より情報的で多様な学習データを合成する簡易かつ効果的な手法を提案する。
本手法は,合成学習データに基づいて訓練したモデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-07-17T14:38:11Z) - Zero-shot spatial layout conditioning for text-to-image diffusion models [52.24744018240424]
大規模テキスト・画像拡散モデルでは、生成画像モデリングにおける技術の現状が大幅に改善されている。
画像キャンバスのセグメントに関連付けられたテキストからの画像生成を考察し、直感的な自然言語インタフェースと生成されたコンテンツの正確な空間制御を組み合わせた。
ZestGuideは,事前学習したテキスト・画像拡散モデルにプラグイン可能なゼロショットセグメンテーション誘導手法である。
論文 参考訳(メタデータ) (2023-06-23T19:24:48Z) - Large-Scale Bidirectional Training for Zero-Shot Image Captioning [44.17587735943739]
本稿では、画像キャプションをゼロショットにするための効率的なトレーニングと推論のフレームワークであるBITTERSについて紹介する。
大規模なトレーニングセットとモデルアーキテクチャを慎重に選択することが,ゼロショット画像キャプションの実現の鍵であることを示す。
論文 参考訳(メタデータ) (2022-11-13T00:09:36Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。