論文の概要: MAGMA-Edu: Multi-Agent Generative Multimodal Framework for Text-Diagram Educational Question Generation
- arxiv url: http://arxiv.org/abs/2511.18714v1
- Date: Mon, 24 Nov 2025 03:13:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.98897
- Title: MAGMA-Edu: Multi-Agent Generative Multimodal Framework for Text-Diagram Educational Question Generation
- Title(参考訳): MAGMA-Edu:テキストダイアグラム教育質問生成のためのマルチエージェント生成型マルチモーダルフレームワーク
- Authors: Zhenyu Wu, Jian Li, Hua Huang,
- Abstract要約: 本稿では,テキスト推論と図形合成を統合した自己反射型マルチエージェントフレームワークMAGMA-Eduを紹介する。
MAGMA-Eduは,(1)質問文や解を数学的精度で反復的に洗練する生成検証・回帰ループ,(2)幾何学的忠実度と意味的アライメントを強制するコードベースの中間表現という,2段階の共進化的パイプラインを採用している。
- 参考スコア(独自算出の注目度): 24.375206958505427
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Educational illustrations play a central role in communicating abstract concepts, yet current multimodal large language models (MLLMs) remain limited in producing pedagogically coherent and semantically consistent educational visuals. We introduce MAGMA-Edu, a self-reflective multi-agent framework that unifies textual reasoning and diagrammatic synthesis for structured educational problem generation. Unlike existing methods that treat text and image generation independently, MAGMA-Edu employs a two-stage co-evolutionary pipeline: (1) a generation-verification-reflection loop that iteratively refines question statements and solutions for mathematical accuracy, and (2) a code-based intermediate representation that enforces geometric fidelity and semantic alignment during image rendering. Both stages are guided by internal self-reflection modules that evaluate and revise outputs until domain-specific pedagogical constraints are met. Extensive experiments on multimodal educational benchmarks demonstrate the superiority of MAGMA-Edu over state-of-the-art MLLMs. Compared to GPT-4o, MAGMA-Edu improves the average textual metric from 57.01 to 92.31 (+35.3 pp) and boosts image-text consistency (ITC) from 13.20 to 85.24 (+72 pp). Across all model backbones, MAGMA-Edu achieves the highest scores (Avg-Text 96.20, ITC 99.12), establishing a new state of the art for multimodal educational content generation and demonstrating the effectiveness of self-reflective multi-agent collaboration in pedagogically aligned vision-language reasoning.
- Abstract(参考訳): 教育イラストは抽象概念の伝達において中心的な役割を担っているが、現在のマルチモーダル・大規模言語モデル(MLLM)は、教育的な一貫性と意味的に整合した教育的視覚を創出することに制限されている。
我々は、構造化された教育問題生成のためのテキスト推論と図形合成を統一する自己反射型マルチエージェントフレームワークであるMAGMA-Eduを紹介する。
テキストと画像生成を独立に扱う既存の方法とは異なり、MAGMA-Eduは、(1)疑問文や解を数学的精度のために反復的に洗練する生成検証・修正ループ、(2)画像レンダリング中の幾何学的忠実さと意味的アライメントを強制するコードベースの中間表現という、2段階の共進化パイプラインを採用している。
どちらの段階も内部の自己回帰モジュールによってガイドされ、ドメイン固有の教育制約が満たされるまでアウトプットを評価し、修正する。
マルチモーダル教育ベンチマークの大規模な実験は、最先端のMLLMよりもMAGMA-Eduの方が優れていることを示した。
GPT-4oと比較して、MAGMA-Eduは平均テキストメトリックを57.01から92.31(+35.3pp)に改善し、画像テキスト一貫性(ITC)を13.20から85.24(+72pp)に向上させた。
全てのモデルバックボーン全体で、MAGMA-Eduは最高スコア(Avg-Text 96.20, ITC 99.12)を達成し、マルチモーダルな教育コンテンツ生成のための新しい最先端技術を確立し、教育的な視覚言語推論における自己反射的マルチエージェント協調の有効性を実証した。
関連論文リスト
- Generation Enhances Understanding in Unified Multimodal Models via Multi-Representation Generation [53.18286807225952]
統一マルチモーダルモデル(UMM)は、視覚的理解と生成の両方を単一のフレームワークに統合する。
単純なアーキテクチャに依存しないポストトレーニング手法であるUniMRG(Unified Multi-Representation Generation)を提案する。
提案手法は, 微粒化知覚を高め, 幻覚を低減し, 空間的理解を向上し, 同時に生成能力を向上する。
論文 参考訳(メタデータ) (2026-01-29T08:42:25Z) - Uni-MMMU: A Massive Multi-discipline Multimodal Unified Benchmark [69.8473923357969]
統一マルチモーダルモデルは、視覚的理解と生成を共同で行うことを目的としているが、現在のベンチマークでは、その真の統合を検査することはめったにない。
提案するUni-MMMUは、8つの推論中心領域にまたがる生成と理解の双方向の相乗効果を拡大する総合的なベンチマークである。
論文 参考訳(メタデータ) (2025-10-15T17:10:35Z) - UniAlignment: Semantic Alignment for Unified Image Generation, Understanding, Manipulation and Perception [54.53657134205492]
UniAlignmentは単一の拡散変換器内での統一されたマルチモーダル生成フレームワークである。
固有モード意味アライメントとクロスモーダル意味アライメントの両方を組み込むことで、モデルのクロスモーダル一貫性と命令追従ロバスト性を高める。
本稿では、複雑なテキスト命令下でのマルチモーダルなセマンティック一貫性を評価するために設計された新しいベンチマークであるSemGen-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-28T09:11:30Z) - A Unified Multi-Agent Framework for Universal Multimodal Understanding and Generation [8.021435739965982]
マルチモーダルな理解と生成を2つの分離されたフェーズ(認知と熟考)を通じて統合するモジュラーフレームワークを提案する。
コグニションでは、Perceiver、Planner、Reflectorの3つのロール条件のマルチモーダルLLMエージェントが協調対話を行い、構造化された理解と計画を実行する。
Deliberation フェーズには、LSM に基づく推論と拡散に基づく生成を相互に強化する成長意識探索機構が組み込まれている。
論文 参考訳(メタデータ) (2025-08-14T09:52:51Z) - Janus-Pro-R1: Advancing Collaborative Visual Comprehension and Generation via Reinforcement Learning [92.57052246970254]
視覚的理解と生成の協調的共進化を可能にすることを提案する。
教師付き微調整は、真のCoTを生成する基礎的な能力を持つMLLMを指導する。
画像生成におけるAhaモーメントを解き、テキスト・ツー・イメージタスクから統合画像生成へMLLMを前進させる。
論文 参考訳(メタデータ) (2025-06-02T09:39:28Z) - Towards Enhanced Image Generation Via Multi-modal Chain of Thought in Unified Generative Models [52.84391764467939]
統一生成モデルは、テキストおよび画像生成において顕著な性能を示した。
複雑な画像生成の課題に対処するために、思考の連鎖(CoT)を統一生成モデルに導入する。
実験により、FoXは様々なT2Iベンチマークで既存の統一モデルよりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-03-03T08:36:16Z) - LMFusion: Adapting Pretrained Language Models for Multimodal Generation [81.78257799283777]
LMFusionは、事前訓練されたテキストのみの大規模言語モデル(LLM)をマルチモーダル生成機能で強化するフレームワークである。
複数モーダル生成モデルをスクラッチから事前訓練する手法と比較して, LMFusionは画像理解を20%改善し, 画像生成を3.6%改善し, FLOPの50%しか利用できないことを示した。
論文 参考訳(メタデータ) (2024-12-19T18:56:24Z) - Shapley Value-based Contrastive Alignment for Multimodal Information Extraction [17.04865437165252]
我々は、画像-コンテキスト-テキストインタラクションの新しいパラダイムを導入する。
本稿では,新しいシェープ値に基づくコントラストアライメント(Shap-CA)法を提案する。
我々の手法は既存の最先端手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-07-25T08:15:43Z) - MiniGPT-5: Interleaved Vision-and-Language Generation via Generative Vokens [22.802963850131306]
生成ボケンの概念を主軸とした,新たなインターリーブ型視覚・言語生成手法を提案する。
本手法は,記述自由なマルチモーダル生成のためのユニークな2段階学習戦略によって特徴付けられる。
我々のモデルであるMiniGPT-5は、マルチモーダル生成データセットのベースラインモデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-10-03T17:49:04Z) - Making LLaMA SEE and Draw with SEED Tokenizer [69.1083058794092]
大規模言語モデルにSEEとDrawの能力を持たせるための精巧な画像トークンであるSEEDを紹介します。
SEEDトークンを使うことで、LLMはオリジナルのトレーニングレシピの下でスケーラブルなマルチモーダルオートレグレスを実行することができる。
SEED-LLaMAはマルチターン・イン・コンテクスト・マルチモーダル生成のような合成創発的能力を示す。
論文 参考訳(メタデータ) (2023-10-02T14:03:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。