論文の概要: MAGMA-Edu: Multi-Agent Generative Multimodal Framework for Text-Diagram Educational Question Generation
- arxiv url: http://arxiv.org/abs/2511.18714v1
- Date: Mon, 24 Nov 2025 03:13:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.98897
- Title: MAGMA-Edu: Multi-Agent Generative Multimodal Framework for Text-Diagram Educational Question Generation
- Title(参考訳): MAGMA-Edu:テキストダイアグラム教育質問生成のためのマルチエージェント生成型マルチモーダルフレームワーク
- Authors: Zhenyu Wu, Jian Li, Hua Huang,
- Abstract要約: 本稿では,テキスト推論と図形合成を統合した自己反射型マルチエージェントフレームワークMAGMA-Eduを紹介する。
MAGMA-Eduは,(1)質問文や解を数学的精度で反復的に洗練する生成検証・回帰ループ,(2)幾何学的忠実度と意味的アライメントを強制するコードベースの中間表現という,2段階の共進化的パイプラインを採用している。
- 参考スコア(独自算出の注目度): 24.375206958505427
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Educational illustrations play a central role in communicating abstract concepts, yet current multimodal large language models (MLLMs) remain limited in producing pedagogically coherent and semantically consistent educational visuals. We introduce MAGMA-Edu, a self-reflective multi-agent framework that unifies textual reasoning and diagrammatic synthesis for structured educational problem generation. Unlike existing methods that treat text and image generation independently, MAGMA-Edu employs a two-stage co-evolutionary pipeline: (1) a generation-verification-reflection loop that iteratively refines question statements and solutions for mathematical accuracy, and (2) a code-based intermediate representation that enforces geometric fidelity and semantic alignment during image rendering. Both stages are guided by internal self-reflection modules that evaluate and revise outputs until domain-specific pedagogical constraints are met. Extensive experiments on multimodal educational benchmarks demonstrate the superiority of MAGMA-Edu over state-of-the-art MLLMs. Compared to GPT-4o, MAGMA-Edu improves the average textual metric from 57.01 to 92.31 (+35.3 pp) and boosts image-text consistency (ITC) from 13.20 to 85.24 (+72 pp). Across all model backbones, MAGMA-Edu achieves the highest scores (Avg-Text 96.20, ITC 99.12), establishing a new state of the art for multimodal educational content generation and demonstrating the effectiveness of self-reflective multi-agent collaboration in pedagogically aligned vision-language reasoning.
- Abstract(参考訳): 教育イラストは抽象概念の伝達において中心的な役割を担っているが、現在のマルチモーダル・大規模言語モデル(MLLM)は、教育的な一貫性と意味的に整合した教育的視覚を創出することに制限されている。
我々は、構造化された教育問題生成のためのテキスト推論と図形合成を統一する自己反射型マルチエージェントフレームワークであるMAGMA-Eduを紹介する。
テキストと画像生成を独立に扱う既存の方法とは異なり、MAGMA-Eduは、(1)疑問文や解を数学的精度のために反復的に洗練する生成検証・修正ループ、(2)画像レンダリング中の幾何学的忠実さと意味的アライメントを強制するコードベースの中間表現という、2段階の共進化パイプラインを採用している。
どちらの段階も内部の自己回帰モジュールによってガイドされ、ドメイン固有の教育制約が満たされるまでアウトプットを評価し、修正する。
マルチモーダル教育ベンチマークの大規模な実験は、最先端のMLLMよりもMAGMA-Eduの方が優れていることを示した。
GPT-4oと比較して、MAGMA-Eduは平均テキストメトリックを57.01から92.31(+35.3pp)に改善し、画像テキスト一貫性(ITC)を13.20から85.24(+72pp)に向上させた。
全てのモデルバックボーン全体で、MAGMA-Eduは最高スコア(Avg-Text 96.20, ITC 99.12)を達成し、マルチモーダルな教育コンテンツ生成のための新しい最先端技術を確立し、教育的な視覚言語推論における自己反射的マルチエージェント協調の有効性を実証した。
関連論文リスト
- UniAlignment: Semantic Alignment for Unified Image Generation, Understanding, Manipulation and Perception [54.53657134205492]
UniAlignmentは単一の拡散変換器内での統一されたマルチモーダル生成フレームワークである。
固有モード意味アライメントとクロスモーダル意味アライメントの両方を組み込むことで、モデルのクロスモーダル一貫性と命令追従ロバスト性を高める。
本稿では、複雑なテキスト命令下でのマルチモーダルなセマンティック一貫性を評価するために設計された新しいベンチマークであるSemGen-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-28T09:11:30Z) - Towards Enhanced Image Generation Via Multi-modal Chain of Thought in Unified Generative Models [52.84391764467939]
統一生成モデルは、テキストおよび画像生成において顕著な性能を示した。
複雑な画像生成の課題に対処するために、思考の連鎖(CoT)を統一生成モデルに導入する。
実験により、FoXは様々なT2Iベンチマークで既存の統一モデルよりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-03-03T08:36:16Z) - LMFusion: Adapting Pretrained Language Models for Multimodal Generation [81.78257799283777]
LMFusionは、事前訓練されたテキストのみの大規模言語モデル(LLM)をマルチモーダル生成機能で強化するフレームワークである。
複数モーダル生成モデルをスクラッチから事前訓練する手法と比較して, LMFusionは画像理解を20%改善し, 画像生成を3.6%改善し, FLOPの50%しか利用できないことを示した。
論文 参考訳(メタデータ) (2024-12-19T18:56:24Z) - MiniGPT-5: Interleaved Vision-and-Language Generation via Generative Vokens [22.802963850131306]
生成ボケンの概念を主軸とした,新たなインターリーブ型視覚・言語生成手法を提案する。
本手法は,記述自由なマルチモーダル生成のためのユニークな2段階学習戦略によって特徴付けられる。
我々のモデルであるMiniGPT-5は、マルチモーダル生成データセットのベースラインモデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-10-03T17:49:04Z) - Making LLaMA SEE and Draw with SEED Tokenizer [69.1083058794092]
大規模言語モデルにSEEとDrawの能力を持たせるための精巧な画像トークンであるSEEDを紹介します。
SEEDトークンを使うことで、LLMはオリジナルのトレーニングレシピの下でスケーラブルなマルチモーダルオートレグレスを実行することができる。
SEED-LLaMAはマルチターン・イン・コンテクスト・マルチモーダル生成のような合成創発的能力を示す。
論文 参考訳(メタデータ) (2023-10-02T14:03:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。