論文の概要: Text to Automata Diagrams: Comparing TikZ Code Generation with Direct Image Synthesis
- arxiv url: http://arxiv.org/abs/2603.07936v1
- Date: Mon, 09 Mar 2026 04:00:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.41612
- Title: Text to Automata Diagrams: Comparing TikZ Code Generation with Direct Image Synthesis
- Title(参考訳): テキストとオートマタ図:TikZコード生成と直接画像合成の比較
- Authors: Ethan Young, Zichun Wang, Aiden Taylor, Chance Jewell, Julian Myers, Satya Sri Rajiteswari Nimmagadda, Anthony White, Aniruddha Maiti, Ananya Jana,
- Abstract要約: 本研究では,現在の視覚言語モデルと大規模言語モデルがこのような図を処理できるかどうかを検討する。
結果のダイアグラムはコンパイルされ、元のスキャンされたダイアグラムに対して評価される。
視覚言語モデルを用いた画像から直接生成された記述はしばしば誤りであり、人間の修正は視覚言語モデル生成記述の品質を大幅に向上させる可能性がある。
- 参考スコア(独自算出の注目度): 1.595689179476928
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diagrams are widely used in teaching computer science courses. They are useful in subjects such as automata and formal languages, data structures, etc. These diagrams, often drawn by students during exams or assignments, vary in structure, layout, and correctness. This study examines whether current vision-language and large language models can process such diagrams and produce accurate textual and digital representations. In this study, scanned student-drawn diagrams are used as input. Then, textual descriptions are generated from these images using a vision-language model. The descriptions are checked and revised by human reviewers to make them accurate. Both the generated and the revised descriptions are then fed to a large language model to generate TikZ code. The resulting diagrams are compiled and then evaluated against the original scanned diagrams. We found descriptions generated directly from images using vision-language models are often incorrect and human correction can substantially improve the quality of vision language model generated descriptions. This research can help computer science education by paving the way for automated grading and feedback and creating more accessible instructional materials.
- Abstract(参考訳): ダイアグラムはコンピュータサイエンスの授業で広く使われている。
これらは、自動言語や形式言語、データ構造など、分野において有用である。
これらの図は、試験や課題の間、学生によって描かれることが多いが、構造、レイアウト、正確性が異なる。
本研究では,現在の視覚言語モデルと大規模言語モデルがこのような図を処理し,正確なテキストおよびデジタル表現を生成できるかどうかを検討する。
本研究では,学生図を入力として用いた。
そして、これらの画像から視覚言語モデルを用いてテキスト記述を生成する。
説明は、人間のレビュアーによってチェックされ、修正され、正確になる。
生成された記述と修正された記述の両方が大きな言語モデルに送られ、TikZコードを生成する。
結果のダイアグラムはコンパイルされ、元のスキャンされたダイアグラムに対して評価される。
視覚言語モデルを用いた画像から直接生成された記述はしばしば誤りであり、人間の修正は視覚言語モデル生成記述の品質を大幅に向上させる可能性がある。
この研究は、自動グレーティングとフィードバックの道を切り開いて、よりアクセスしやすい教材を作ることによって、コンピュータサイエンスの教育に役立つ。
関連論文リスト
- Diffusion On Syntax Trees For Program Synthesis [8.878069731298014]
大規模言語モデルは一度に1つのトークンを生成する。
彼らの自己回帰生成プロセスは、プログラムの出力を観察するフィードバックを欠いている。
文脈自由文法の構文木で動作する神経拡散モデルを提案する。
論文 参考訳(メタデータ) (2024-05-30T22:31:16Z) - Mismatch Quest: Visual and Textual Feedback for Image-Text Misalignment [64.49170817854942]
本稿では,検出されたテキストと画像のペア間の相違点の詳細な説明を行う。
我々は、大きな言語モデルと視覚的接地モデルを活用して、与えられた画像に対して妥当なキャプションを保持するトレーニングセットを自動構築する。
また,テキストと視覚的ミスアライメントアノテーションを組み合わせた新たな人為的なテストセットも公開する。
論文 参考訳(メタデータ) (2023-12-05T20:07:34Z) - Visual Storytelling with Question-Answer Plans [70.89011289754863]
本稿では、事前訓練された言語モデルと計画に視覚表現を統合する新しいフレームワークを提案する。
我々のモデルは、画像列を視覚的な接頭辞、つまり言語モデルで解釈できる連続的な埋め込みの列に変換する。
また、一連の質問と回答のペアを青写真プランとして利用して、健全な視覚概念を選択し、物語にどのように組み立てるべきかを決定する。
論文 参考訳(メタデータ) (2023-10-08T21:45:34Z) - DALL-Eval: Probing the Reasoning Skills and Social Biases of
Text-to-Image Generation Models [73.12069620086311]
テキスト・ツー・イメージ・モデルの視覚的推論能力と社会的バイアスについて検討する。
まず,物体認識,物体カウント,空間的関係理解という3つの視覚的推論スキルを計測する。
第2に、生成した画像の性別/肌の色調分布を測定することにより、性別と肌のトーンバイアスを評価する。
論文 参考訳(メタデータ) (2022-02-08T18:36:52Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z) - Integrating Visuospatial, Linguistic and Commonsense Structure into
Story Visualization [81.26077816854449]
まず、構造的入力を符号化するための選挙区解析木の利用について検討する。
第二に、構造化されたインプットをコモンセンス情報で強化し、この外部知識が視覚的ストーリーの生成に与える影響について検討する。
第3に、境界ボックスと高密度キャプションによって視覚構造を組み込んで、生成された画像の文字やオブジェクトに関するフィードバックを提供する。
論文 参考訳(メタデータ) (2021-10-21T00:16:02Z) - RL-CSDia: Representation Learning of Computer Science Diagrams [25.66215925641988]
コンピュータサイエンスダイアグラム(csdia)という,図形図の新しいデータセットを構築する。
1200以上の図とオブジェクトと関係の完全なアノテーションを含んでいる。
図中の様々な表現に起因する視覚ノイズを考慮して,図形のトポロジーを導入し,位相構造を解析する。
論文 参考訳(メタデータ) (2021-03-10T07:01:07Z) - Generating Image Descriptions via Sequential Cross-Modal Alignment
Guided by Human Gaze [6.6358421117698665]
私たちは、最先端の画像キャプションシステムとして、出発点として捉えています。
言語生産中に記録された人間の視線パターンから情報を利用するモデル変異体を開発した。
実験と分析により、視線による注意を生かして、より良い説明が得られていることを確認した。
論文 参考訳(メタデータ) (2020-11-09T17:45:32Z) - Learning to Represent Image and Text with Denotation Graph [32.417311523031195]
本稿では,画像とテキスト間の暗黙的・視覚的接地表現の集合から学習表現を提案する。
得られた構造的関係を利用して,最先端のマルチモーダル学習モデルをさらに改良できることを示す。
論文 参考訳(メタデータ) (2020-10-06T18:00:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。