論文の概要: LEARN: A Story-Driven Layout-to-Image Generation Framework for STEM Instruction
- arxiv url: http://arxiv.org/abs/2508.11153v1
- Date: Fri, 15 Aug 2025 01:49:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.710603
- Title: LEARN: A Story-Driven Layout-to-Image Generation Framework for STEM Instruction
- Title(参考訳): LEARN: STEMインストラクションのためのストーリー駆動レイアウト画像生成フレームワーク
- Authors: Maoquan Zhang, Bisser Raytchev, Xiujuan Sun,
- Abstract要約: LEARNはレイアウト対応の拡散フレームワークであり、STEM教育のための図形を教育的に整列させるように設計されている。
これはレイアウトベースのストーリーテリング、意味構造学習、認知的足場を統合するための最初の生成的アプローチである。
コードとデータセットは、将来の研究と実践的なデプロイメントを容易にするためにリリースされる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: LEARN is a layout-aware diffusion framework designed to generate pedagogically aligned illustrations for STEM education. It leverages a curated BookCover dataset that provides narrative layouts and structured visual cues, enabling the model to depict abstract and sequential scientific concepts with strong semantic alignment. Through layout-conditioned generation, contrastive visual-semantic training, and prompt modulation, LEARN produces coherent visual sequences that support mid-to-high-level reasoning in line with Bloom's taxonomy while reducing extraneous cognitive load as emphasized by Cognitive Load Theory. By fostering spatially organized and story-driven narratives, the framework counters fragmented attention often induced by short-form media and promotes sustained conceptual focus. Beyond static diagrams, LEARN demonstrates potential for integration with multimodal systems and curriculum-linked knowledge graphs to create adaptive, exploratory educational content. As the first generative approach to unify layout-based storytelling, semantic structure learning, and cognitive scaffolding, LEARN represents a novel direction for generative AI in education. The code and dataset will be released to facilitate future research and practical deployment.
- Abstract(参考訳): LEARNはレイアウト対応の拡散フレームワークであり、STEM教育のための図形を教育的に整列させるように設計されている。
モデルが抽象的かつシーケンシャルな科学的概念を強力なセマンティックアライメントで表現できるようにするため、物語レイアウトと構造化された視覚的手がかりを提供する、キュレートされたBookCoverデータセットを活用する。
レイアウト条件付き生成、対照的な視覚的セマンティックトレーニング、即時変調を通じて、LEARNは、認知的負荷理論(Cognitive Load Theory)によって強調されるような、異常な認知負荷を低減しつつ、ブルームの分類に沿う中間から上位の推論をサポートするコヒーレントな視覚シーケンスを生成する。
空間的に組織された物語や物語駆動の物語を育むことで、このフレームワークは、しばしば短い形式のメディアによって引き起こされる断片化された注意に対抗し、持続的な概念的焦点を促進する。
静的図の他に、LEARNは、適応的で探索的な教育コンテンツを作成するために、マルチモーダルシステムとカリキュラムにリンクされた知識グラフとの統合の可能性を示している。
レイアウトベースのストーリーテリング、セマンティック構造学習、認知足場を統一する最初の生成的アプローチとして、LEARNは、教育における生成AIの新しい方向性を表す。
コードとデータセットは、将来の研究と実践的なデプロイメントを容易にするためにリリースされる。
関連論文リスト
- Augmenting Continual Learning of Diseases with LLM-Generated Visual Concepts [1.1883838320818292]
本稿では,大規模言語モデル(LLM)が生成する視覚概念を識別的意味指導として活用する新しいフレームワークを提案する。
本手法は,類似性に基づくフィルタリング機構を備えた視覚概念プールを動的に構築し,冗長性を防止する。
注目することで、モジュールは関連する視覚概念から意味的知識を活用でき、分類のためのクラス表現の融合した特徴を生成できる。
論文 参考訳(メタデータ) (2025-08-05T05:15:54Z) - Embryology of a Language Model [1.1874560263468232]
本研究では, モデルの構造的発達を可視化するために, UMAPを感受性マトリックスに適用する胚学的アプローチを提案する。
我々の可視化は、誘導回路のような既知の特徴の形成と、以前に未知の構造を発見したことのグラフを、明確なボディプランの出現を示す。
論文 参考訳(メタデータ) (2025-08-01T05:39:41Z) - SmartCLIP: Modular Vision-language Alignment with Identification Guarantees [59.16312652369709]
Contrastive Language-Image Pre-Traiing (CLIP)citepradford2021 Learningは、コンピュータビジョンとマルチモーダル学習において重要なモデルとして登場した。
CLIPは、多くの画像テキストデータセットにおける潜在的な情報ミスアライメントに苦労し、絡み合った表現に悩まされている。
モジュラー方式で、最も関連性の高い視覚的およびテキスト的表現を特定し、調整する新しいアプローチである。
論文 参考訳(メタデータ) (2025-07-29T22:26:20Z) - Visual and Semantic Prompt Collaboration for Generalized Zero-Shot Learning [58.73625654718187]
一般化されたゼロショット学習は、異なるクラス間で共有される意味情報の助けを借りて、目に見えないクラスと見えないクラスの両方を認識することを目的としている。
既存のアプローチでは、視覚的バックボーンをルッククラスのデータで微調整し、セマンティックな視覚的特徴を得る。
本稿では,効率的な特徴適応のためのプロンプトチューニング技術を活用した,視覚的・意味的プロンプト協調フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-29T10:17:57Z) - Emergent Visual-Semantic Hierarchies in Image-Text Representations [13.300199242824934]
既存の基盤モデルの知識について検討し、視覚・意味的階層の創発的な理解を示すことを明らかにする。
本稿では,階層的理解の探索と最適化を目的としたRadial Embedding (RE)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-11T14:09:42Z) - Improving In-Context Learning in Diffusion Models with Visual
Context-Modulated Prompts [83.03471704115786]
本研究では,改良型プロンプト拡散(iPromptDiff)を紹介する。
iPromptDiffは、視覚コンテキストを埋め込みベクトルに変換するエンドツーエンドのトレーニングされた視覚エンコーダを統合する。
拡散に基づく視覚基盤モデルにおいて,この視覚的文脈変調テキストガイダンスと標準制御ネット構造を組み込んだ場合,多種多様な学習課題における多目的性と堅牢性を示すことを示す。
論文 参考訳(メタデータ) (2023-12-03T14:15:52Z) - A Message Passing Perspective on Learning Dynamics of Contrastive
Learning [60.217972614379065]
特徴空間に対照的な目的を同等に配置すると、その学習力学は解釈可能な形式を持つことを示す。
この視点はまた、対照的な学習とメッセージパッシンググラフニューラルネットワーク(MP-GNN)の間の興味深い関係を確立する。
論文 参考訳(メタデータ) (2023-03-08T08:27:31Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - Cross-modal Representation Learning for Zero-shot Action Recognition [67.57406812235767]
我々は、ゼロショット動作認識(ZSAR)のためのビデオデータとテキストラベルを共同で符号化するクロスモーダルトランスフォーマーベースのフレームワークを提案する。
我々のモデルは概念的に新しいパイプラインを使用し、視覚的表現と視覚的意味的関連をエンドツーエンドで学習する。
実験結果から,本モデルはZSARの芸術的状況に大きく改善され,UCF101,HMDB51,ActivityNetベンチマークデータセット上でトップ1の精度が向上した。
論文 参考訳(メタデータ) (2022-05-03T17:39:27Z) - Knowledge-enriched Attention Network with Group-wise Semantic for Visual
Storytelling [39.59158974352266]
視覚的なストーリーテリングは、関連した画像のグループから物語の多文を含む想像的で一貫性のあるストーリーを生成することを目的としている。
既存の手法では、画像以外の暗黙的な情報を探索することができないため、画像に基づくコンテンツの直接的および厳密な記述を生成することが多い。
これらの問題に対処するために,グループワイド・セマンティック・モデルを用いた新しい知識強化型アテンション・ネットワークを提案する。
論文 参考訳(メタデータ) (2022-03-10T12:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。