論文の概要: See Before You Code: Learning Visual Priors for Spatially Aware Educational Animation Generation
- arxiv url: http://arxiv.org/abs/2605.15585v1
- Date: Fri, 15 May 2026 03:48:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.163281
- Title: See Before You Code: Learning Visual Priors for Spatially Aware Educational Animation Generation
- Title(参考訳): プログラミングの前に見る:空間的認識による教育アニメーション生成のための視覚的優先学習
- Authors: Yuejia Li, Ke He, Junheng Li, Shutong Chen, Jingkang Xia, Zhiyue Su, Junchi Zhang, Mang Ye,
- Abstract要約: 我々は,レンダリングフィードバックを意識したアニメーション生成フレームワークであるOmniManimを紹介する。
共有シーン状態、明示的な視覚計画、構造化されたレンダリング後の診断、局所的な修復を中心に構築されている。
Edu-500では、OmniManimはシングルエージェントベースラインと既存のマルチエージェントフレームワークの両方で、測定されたレンダリング品質を改善している。
- 参考スコア(独自算出の注目度): 39.337052427482554
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models can generate executable code for educational animations, but the resulting renders often exhibit visual defects, including element overlap, misalignment, and broken animation continuity. These defects cannot be reliably detected from the code alone and become apparent only after execution. We formalize this problem as render-feedback-aware constrained code generation: given a natural language specification, the model must generate executable code whose rendered output satisfies structured quality criteria that can be evaluated only after rendering. To address this problem, we introduce OmniManim, a render-feedback-aware educational animation generation framework built around a shared scene state, explicit visual planning, structured post-render diagnostics, and localized repair. Within OmniManim, the Vision Agent is a task-specific visual planning module: it predicts sparse keyframe layouts with coarse-to-fine bounding-box denoising and optimizes an interpolation-aware objective to reduce intermediate-frame failures induced by downstream animation interpolation. We further construct two datasets, ManimLayout-1K and EduRequire-500, and provide a reproducible evaluation protocol covering executability, instructional quality, visual quality, and efficiency. On EduRequire-500, OmniManim improves measured render quality over both single-model baselines and existing multi-agent frameworks. Systematic ablation studies further verify that explicit visual planning, especially its coarse spatial prior, bounding-box refinement, and interpolation-aware optimization, is central to these gains.
- Abstract(参考訳): 大きな言語モデルは教育用アニメーションの実行可能なコードを生成することができるが、結果として得られるレンダリングは、要素の重複、修正ミス、アニメーションの連続性の破壊など、視覚的な欠陥をしばしば示している。
これらの欠陥は、コードからのみ確実に検出することができず、実行後にのみ明らかになる。
自然言語仕様が与えられたら、そのモデルは、レンダリング後にのみ評価できる構造化品質基準を満たす実行可能なコードを生成する必要があります。
この問題に対処するために,共有シーン状態,明示的な視覚計画,構造化された後診断,局所的な修復を中心に構築されたレンダリングフィードバック対応の教育用アニメーション生成フレームワークであるOmniManimを紹介した。
OmniManim内では、Vision Agentはタスク固有のビジュアルプランニングモジュールであり、粗いバウンディングボックスで疎いキーフレームレイアウトを予測し、インタプリケーションを意識した目的を最適化し、下流アニメーションの補間によって引き起こされる中間フレームの障害を減らす。
さらに、ManimLayout-1KとEduRequire-500という2つのデータセットを構築し、実行可能性、教育的品質、視覚的品質、効率を再現可能な評価プロトコルを提供する。
EduRequire-500では、OmniManimはシングルモデルベースラインと既存のマルチエージェントフレームワークの両方で、測定されたレンダリング品質を改善している。
体系的アブレーション研究により、明示的な視覚計画、特にその粗い空間事前、境界ボックスの洗練、補間対応最適化がこれらの利得の中心であることを検証した。
関連論文リスト
- GameUIAgent: An LLM-Powered Framework for Automated Game UI Design with Structured Intermediate Representation [10.74393288520677]
ゲームUIのデザインは、希少層にまたがる一貫した視覚的アセットを必要とするが、手動のプロセスが主流である。
本稿では、自然言語記述を編集可能なFigma設計に変換する、GameUIAgent LLMを利用したエージェントフレームワークを提案する。
6段階のニューロシンボリックパイプラインは、LCM生成、決定論的後処理、反復自己補正のためのビジョンランゲージモデル(VLM)誘導反射制御器(RC)を組み合わせる。
論文 参考訳(メタデータ) (2026-03-16T01:57:56Z) - Infusing fine-grained visual knowledge to Vision-Language Models [5.487134463783365]
大規模コントラスト学習による視覚・言語モデル(VLM)の作成
本稿では,VLMの広義マルチモーダル知識の細粒度ドメイン適応と保持の最適バランスを実現するための微調整手法を提案する。
特に微調整時にテキストデータや元のテキストエンコーダを使わずに、視覚的テキストアライメントを維持する。
論文 参考訳(メタデータ) (2025-08-16T19:12:09Z) - End-to-End Vision Tokenizer Tuning [73.3065542220568]
低レベルの再構築のために最適化された視覚トークンーは、様々な表現と意味論を必要とする下流タスクである。
視覚トークン化の損失は、ターゲットタスクの表現ボトルネックになる可能性がある。
本研究では,視覚トークン化と目標自己回帰タスクを協調的に最適化するエンド・ツー・エンドの視覚トークン化チューニング手法であるETTを提案する。
論文 参考訳(メタデータ) (2025-05-15T17:59:39Z) - EAGLE: Enhanced Visual Grounding Minimizes Hallucinations in Instructional Multimodal Models [54.234657224615354]
大規模な言語モデルと視覚変換器は、ダウンストリームタスクにおいて大きな転送可能性を実現する、印象的なゼロショット機能を示している。
膨大な画像と言語の事前学習を取り入れているにもかかわらず、これらのマルチモーダルアーキテクチャは、画像データの基底真理から逸脱する応答をしばしば生成する。
幻覚を緩和する現在の方法は、一般的に言語コンポーネントの正規化、融合モジュールの改善、視覚表現を改善するために複数の視覚エンコーダのアンサンブルに焦点を当てている。
従来のコントラスト付き事前学習タスクを手軽に書き換えることで,教育用マルチモーダルアーキテクチャに組み込まれたビジュアルエンコーダが,追加の指導訓練を行なわずに実現可能であることを示す。
論文 参考訳(メタデータ) (2025-01-06T00:39:31Z) - ViGoR: Improving Visual Grounding of Large Vision Language Models with Fine-Grained Reward Modeling [35.098725056881655]
大型視覚言語モデル(LVLM)は前例のない視覚推論能力を示している。
生成されたテキストは、しばしば視覚入力の不正確な接地に悩まされ、既存のシーン要素の幻覚などのエラーが発生する。
そこで我々は,LVLMの視覚的接地性を高めるために,微粒な報酬モデルを用いた新しいフレームワークViGoRを提案する。
論文 参考訳(メタデータ) (2024-02-09T01:00:14Z) - CogCoM: A Visual Language Model with Chain-of-Manipulations Reasoning [61.21923643289266]
カオス・オブ・マニピュレーション(Chain of Manipulations)は、視覚言語モデル(Vision-Language Models)が、エビデンスを段階的に解決するメカニズムである。
トレーニング後、モデルは外部ツールを介さずに、本質的な操作(グラウンド、ズームインなど)を積極的に行うことで、様々な視覚的問題を解決することができる。
トレーニングされたモデルである textbfCogCoM は、4つのカテゴリの9つのベンチマークで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-02-06T18:43:48Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。