論文の概要: TikZilla: Scaling Text-to-TikZ with High-Quality Data and Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.03072v1
- Date: Tue, 03 Mar 2026 15:17:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.850432
- Title: TikZilla: Scaling Text-to-TikZ with High-Quality Data and Reinforcement Learning
- Title(参考訳): TikZilla: 高品質データと強化学習によるテキストからTikZのスケーリング
- Authors: Christian Greisinger, Steffen Eger,
- Abstract要約: Text-to-TikZの既存のデータセットは、TikZの複雑さを捉えるには小さすぎてうるさい。
DaTikZ-V4は4倍以上のデータセットで、品質がかなり高い。
- 参考スコア(独自算出の注目度): 21.738227405440785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly used to assist scientists across diverse workflows. A key challenge is generating high-quality figures from textual descriptions, often represented as TikZ programs that can be rendered as scientific images. Prior research has proposed a variety of datasets and modeling approaches for this task. However, existing datasets for Text-to-TikZ are too small and noisy to capture the complexity of TikZ, causing mismatches between text and rendered figures. Moreover, prior approaches rely solely on supervised fine-tuning (SFT), which does not expose the model to the rendered semantics of the figure, often resulting in errors such as looping, irrelevant content, and incorrect spatial relations. To address these issues, we construct DaTikZ-V4, a dataset more than four times larger and substantially higher in quality than DaTikZ-V3, enriched with LLM-generated figure descriptions. Using this dataset, we train TikZilla, a family of small open-source Qwen models (3B and 8B) with a two-stage pipeline of SFT followed by reinforcement learning (RL). For RL, we leverage an image encoder trained via inverse graphics to provide semantically faithful reward signals. Extensive human evaluations with over 1,000 judgments show that TikZilla improves by 1.5-2 points over its base models on a 5-point scale, surpasses GPT-4o by 0.5 points, and matches GPT-5 in the image-based evaluation, while operating at much smaller model sizes. Code, data, and models will be made available.
- Abstract(参考訳): 大規模言語モデル(LLM)は、さまざまなワークフローを横断する科学者を支援するために、ますます使われている。
重要な課題は、テキスト記述から高品質な数字を生成することであり、しばしば科学画像として表現できるTikZプログラムとして表される。
以前の研究では、このタスクのためのさまざまなデータセットとモデリングアプローチが提案されていた。
しかし、Text-to-TikZの既存のデータセットは小さく、ノイズが多く、TikZの複雑さを捉えることができず、テキストとレンダリングされた数字のミスマッチを引き起こす。
さらに、事前のアプローチは教師付き微調整(SFT)にのみ依存しており、図のレンダリングセマンティクスにモデルを公開していないため、ループ、無関係コンテンツ、不正確な空間関係などのエラーが発生することが多い。
これらの問題に対処するため、LLM生成図形記述に富んだDaTikZ-V3よりも4倍以上大きく、質の高いデータセットであるDaTikZ-V4を構築した。
このデータセットを使用して、小さなオープンソースQwenモデル(3Bと8B)のファミリーであるTikZillaをSFTの2段階パイプラインでトレーニングし、さらに強化学習(RL)を行った。
RLでは、逆グラフを用いて訓練された画像エンコーダを利用して、意味的に忠実な報酬信号を提供する。
1000以上の判定で、TikZillaはベースモデルを1.5-2ポイント上回り、GPT-4oを0.5ポイント上回り、画像ベース評価でGPT-5と一致し、はるかに小さなモデルサイズで動作している。
コード、データ、モデルは利用可能になる。
関連論文リスト
- Compile Scene Graphs with Reinforcement Learning [69.36723767339001]
次世代予測は大規模言語モデル(LLM)の訓練の基本原理である
本稿では,マルチモーダルLLM(M-LLM)であるR1-SGGを紹介する。
私たちは、Hard Recall、Hard Recall+Relax、Soft Recallの3つのリコールベースのバリエーションを含む、グラフ中心の報酬セットを設計します。
論文 参考訳(メタデータ) (2025-04-18T10:46:22Z) - Scaling Down Text Encoders of Text-to-Image Diffusion Models [24.751226627178475]
拡散モデルにおけるテキストエンコーダは急速に進化し、CLIPからT5-XXLへ移行した。
我々は、一連のT5エンコーダモデルを訓練するために、視覚に基づく知識蒸留を採用している。
以上の結果から, 蒸留T5ベースモデルがT5-XXLと同等の画質の画像を生成できることが示されている。
論文 参考訳(メタデータ) (2025-03-25T17:55:20Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - DeTikZify: Synthesizing Graphics Programs for Scientific Figures and Sketches with TikZ [32.12690388609568]
DeTikZifyは、科学的な人物をセマンティクスを保存するTikZグラフィックスプログラムとして自動的に合成する新しい言語モデルである。
DaTikZv2、SketchFig、MetaFigの3つの新しいデータセットを作成します。
私たちはMetaFigとDaTikZv2でDeTikZifyをトレーニングし、SketchFigから学んだ合成スケッチをトレーニングします。
論文 参考訳(メタデータ) (2024-05-24T07:48:35Z) - RETTA: Retrieval-Enhanced Test-Time Adaptation for Zero-Shot Video Captioning [77.59074909960913]
Retrieval-Enhanced Test-Time Adaptation (RETTA) と呼ばれる新しいゼロショットビデオキャプションフレームワークを提案する。
一般的なビデオテキスト検索モデルXCLIP、一般的な画像テキストマッチングモデルCLIP、テキストアライメントモデルAnglE、テキスト生成モデルGPT-2の4つのキーモデルを用いてビデオとテキストをブリッジする。
そこで本研究では,GPT-2,XCLIP,CLIP,AnglEの4つのフリーズモデルにおいて,学習可能なトークンを通信媒体として用いることを提案する。
論文 参考訳(メタデータ) (2024-05-11T16:22:00Z) - TextSquare: Scaling up Text-Centric Visual Instruction Tuning [62.878378882175284]
大規模かつ高品質な命令チューニングデータセットSquare-10Mを作成するための新しいアプローチを提案する。
われわれのモデルであるTextSquareは、最先端のText中心のMLLMをはるかに上回っている。
さらに、GPT4VやGeminiといったトップクラスのモデルでは、テキスト中心のベンチマークを10つ中6つで上回っている。
論文 参考訳(メタデータ) (2024-04-19T11:38:08Z) - Improving Zero-shot Generalization and Robustness of Multi-modal Models [70.14692320804178]
CLIPやLiTのようなマルチモーダルな画像テキストモデルは、画像分類ベンチマークで顕著な性能を示している。
本研究は,この性能差の原因を考察し,テキストプロンプトの曖昧さによる障害事例の多くが原因であることを示す。
本稿では,WordNet階層を用いて,不確実な画像の精度を向上させるための簡易かつ効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-12-04T07:26:24Z) - Learning to Decompose: Hypothetical Question Decomposition Based on
Comparable Texts [65.84370471189676]
本研究は,分解型変圧器の大規模中間訓練について,比較テキストから遠ざかって検討する。
このような中間的事前学習により、多様なタスクのための堅牢な分解ベースモデルの開発がより実現可能であることを示す。
論文 参考訳(メタデータ) (2022-10-30T15:38:03Z) - LAION-5B: An open large-scale dataset for training next generation
image-text models [16.129935376579326]
我々は585億のCLIPフィルタリング画像テキストペアからなるデータセットであるLAION-5Bを紹介し、そのうち2.32Bは英語を含む。
このデータセットを用いて,CLIP,GLIDE,Stable Diffusionといった基礎モデルのレプリケーションと微調整に成功した。
また、近接するいくつかのインデックス、データセット探索のためのWebインターフェースの改善、サブセット生成も提供しています。
論文 参考訳(メタデータ) (2022-10-16T00:08:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。