論文の概要: CAGE: Bridging the Accuracy-Aesthetics Gap in Educational Diagrams via Code-Anchored Generative Enhancement
- arxiv url: http://arxiv.org/abs/2604.09691v1
- Date: Mon, 06 Apr 2026 14:57:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.59716
- Title: CAGE: Bridging the Accuracy-Aesthetics Gap in Educational Diagrams via Code-Anchored Generative Enhancement
- Title(参考訳): CAGE: Code-Anchored Generative Enhancement による教育用ダイアグラムの精度・美学ギャップのブリッジ化
- Authors: Dikshant Kukreja, Kshitij Sah, Karan Goyal, Mukesh Mohania, Vikram Goyal,
- Abstract要約: オープンソース拡散モデルは視覚的にリッチな画像を生成するが、破滅的なテキストラベルを生成する。
LLMによるコードベースの生成はラベルの正確性を保証するが、視覚的にフラットな出力をもたらす。
400 K-12ダイアグラムプロンプトの精度・美学ジレンマを定量化する。
EduDiagram-2Kは、このパイプラインを実現するために2000のペア化されたプログラムスティル化されたダイアグラムの集合である。
- 参考スコア(独自算出の注目度): 4.915093391773735
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Educational diagrams -- labeled illustrations of biological processes, chemical structures, physical systems, and mathematical concepts -- are essential cognitive tools in K-12 instruction. Yet no existing method can generate them both accurately and engagingly. Open-source diffusion models produce visually rich images but catastrophically garble text labels. Code-based generation via LLMs guarantees label correctness but yields visually flat outputs. Closed-source APIs partially bridge this gap but remain unreliable and prohibitively expensive at educational scale. We quantify this accuracy-aesthetics dilemma across all three paradigms on 400 K-12 diagram prompts, measuring both label fidelity and visual quality through complementary automated and human evaluation protocols. To resolve it, we propose CAGE (Code-Anchored Generative Enhancement): an LLM synthesizes executable code producing a structurally correct diagram, then a diffusion model conditioned on the programmatic output via ControlNet refines it into a visually polished graphic while preserving label fidelity. We also introduce EduDiagram-2K, a collection of 2,000 paired programmatic-stylized diagrams enabling this pipeline, and present proof-of-concept results and a research agenda for the multimedia community.
- Abstract(参考訳): 教育図(生物プロセス、化学構造、物理システム、数学的概念の図)は、K-12指導において必須の認知ツールである。
しかし、これらを正確かつ活発に生成できる既存の手法は存在しない。
オープンソース拡散モデルは、視覚的にリッチな画像を生成するが、破滅的に破滅的なテキストラベルを生成する。
LLMによるコードベースの生成はラベルの正確性を保証するが、視覚的にフラットな出力をもたらす。
クローズドソースAPIはこのギャップを部分的に埋めるが、教育規模では信頼性が低く、違法に高価である。
我々は,400K-12図のプロンプトにおいて,この3つのパラダイムにまたがる精度・美学のジレンマを定量化し,ラベルの忠実度と視覚的品質を相補的自動評価プロトコルを用いて測定する。
そこで我々は,CAGE(Code-Anchored Generative Enhancement)を提案する。LCMは構造的に正しい図を生成する実行可能コードを合成し,その上で制御ネットによるプログラム出力に条件付けされた拡散モデルを,ラベルの忠実さを維持しながら視覚的に洗練された図形に変換する。
また,EduDiagram-2Kは,このパイプラインを実現する2,000のペアプログラミング・スティル化図の集合であり,概念実証の結果とマルチメディアコミュニティのための研究課題を示す。
関連論文リスト
- OmniDiagram: Advancing Unified Diagram Code Generation via Visual Interrogation Reward [8.227370271724162]
ビジュアル・インターロゲーション・エフェクト・オール(textscViva)という新しい視覚フィードバック戦略を導入する。
textscVivaは、生成的アプローチを通じて描画された図形の視覚構造に報酬を与える。
最初の大規模図形コード生成データセットであるM3$2$Diagramを構築した。
論文 参考訳(メタデータ) (2026-04-07T07:10:24Z) - Molecular Identifier Visual Prompt and Verifiable Reinforcement Learning for Chemical Reaction Diagram Parsing [52.825281124618535]
反応図解析(RxnDP)は、文献から化学合成情報を抽出するために重要である。
近年の視覚言語モデル(VLM)はこの複雑な視覚的推論タスクを自動化するための有望なパラダイムとして登場した。
この研究はVLMベースのRxnDPを2つの相補的視点、すなわち表現の促進と学習パラダイムから強化する。
論文 参考訳(メタデータ) (2026-03-16T09:17:05Z) - Evaluating Generative Models via One-Dimensional Code Distributions [20.971484798914158]
現代の1D画像トークンライザは、セマンティック情報と知覚情報の両方を予測可能なトークン統計としてエンコードしている。
トークン空間におけるトレーニング不要分布指標であるCodebook Histogram Distance(CHD)とCode Mixture Model Score(CMMS)を紹介する。
本研究では,62の視覚形態と12の生成モデルからなる210K画像のベンチマークであるVisFormを提案する。
論文 参考訳(メタデータ) (2026-03-09T07:57:56Z) - Align-GRAG: Reasoning-Guided Dual Alignment for Graph Retrieval-Augmented Generation [79.75818239774952]
大きな言語モデル(LLM)は目覚ましい能力を示しているが、幻覚や時代遅れの情報といった問題に苦戦している。
Retrieval-augmented Generation (RAG) は、情報検索システム(IR)を用いて、外部知識のLLM出力を基底にすることで、これらの問題に対処する。
本稿では、検索後句における新しい推論誘導二重アライメントフレームワークであるAlign-GRAGを提案する。
論文 参考訳(メタデータ) (2025-05-22T05:15:27Z) - Draw with Thought: Unleashing Multimodal Reasoning for Scientific Diagram Generation [4.246322465055928]
そこで我々は,MLLMを指導し,図形を編集可能なmxGraph XMLコードに再構成する学習自由フレームワークDaw with Thought (DwT)を提案する。
DwTはモデル微調整なしで解釈可能で制御可能な出力を可能にする。
Plot2XMLは、ゴールドスタンダードのXMLアノテーションを備えた247の現実世界の科学図のベンチマークです。
論文 参考訳(メタデータ) (2025-04-13T08:22:09Z) - Boosting Chart-to-Code Generation in MLLM via Dual Preference-Guided Refinement [16.22363384653305]
MLLM(Multimodal Large Language Models)は、きめ細かい視覚解析、正確なコード合成、堅牢なクロスモーダル推論を行う。
本稿では、フィードバック駆動の2つのモダリティ報酬機構と反復的な嗜好学習を組み合わせた2つの嗜好誘導改善フレームワークを提案する。
本フレームワークは汎用MLLMの性能を大幅に向上させ,高品質なプロットコードを生成する。
論文 参考訳(メタデータ) (2025-04-03T07:51:20Z) - GraphMAE: Self-Supervised Masked Graph Autoencoders [52.06140191214428]
本稿では,自己教師付きグラフ学習における課題を軽減するマスク付きグラフオートエンコーダGraphMAEを提案する。
我々は3つの異なるグラフ学習タスクに対して、21の公開データセットに関する広範な実験を行った。
その結果,GraphMAEはグラフオートエンコーダであり,設計に注意を払っている。
論文 参考訳(メタデータ) (2022-05-22T11:57:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。