論文の概要: From EduVisBench to EduVisAgent: A Benchmark and Multi-Agent Framework for Pedagogical Visualization
- arxiv url: http://arxiv.org/abs/2505.16832v1
- Date: Thu, 22 May 2025 16:02:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.430474
- Title: From EduVisBench to EduVisAgent: A Benchmark and Multi-Agent Framework for Pedagogical Visualization
- Title(参考訳): EduVisBenchからEduVisAgentへ:教育的可視化のためのベンチマークとマルチエージェントフレームワーク
- Authors: Haonian Ji, Shi Qiu, Siyang Xin, Siwei Han, Zhaorun Chen, Hongyi Wang, Dake Zhang, Huaxiu Yao,
- Abstract要約: EduVisBenchを導入し、基礎モデル(FM)の視覚的推論能力を教育環境でよりよく評価する。
EduVisAgentは、教育計画、推論分解、メタ認知的プロンプト、可視化設計のための特殊エージェントをコーディネートする。
EduVisAgentは全てのベースラインを大幅に上回り、40.2%の改善と教育的に整合した視覚化を提供する。
- 参考スコア(独自算出の注目度): 21.902185151848517
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While foundation models (FMs), such as diffusion models and large vision-language models (LVLMs), have been widely applied in educational contexts, their ability to generate pedagogically effective visual explanations remains limited. Most existing approaches focus primarily on textual reasoning, overlooking the critical role of structured and interpretable visualizations in supporting conceptual understanding. To better assess the visual reasoning capabilities of FMs in educational settings, we introduce EduVisBench, a multi-domain, multi-level benchmark. EduVisBench features diverse STEM problem sets requiring visually grounded solutions, along with a fine-grained evaluation rubric informed by pedagogical theory. Our empirical analysis reveals that existing models frequently struggle with the inherent challenge of decomposing complex reasoning and translating it into visual representations aligned with human cognitive processes. To address these limitations, we propose EduVisAgent, a multi-agent collaborative framework that coordinates specialized agents for instructional planning, reasoning decomposition, metacognitive prompting, and visualization design. Experimental results show that EduVisAgent substantially outperforms all baselines, achieving a 40.2% improvement and delivering more educationally aligned visualizations. EduVisBench and EduVisAgent are available at https://github.com/aiming-lab/EduVisBench and https://github.com/aiming-lab/EduVisAgent.
- Abstract(参考訳): 拡散モデルや大規模視覚言語モデル(LVLM)のような基礎モデル(FM)は、教育的文脈において広く応用されているが、教育学的に有効な視覚的説明を生成する能力は依然として限られている。
既存のほとんどのアプローチは、主にテキスト推論に焦点を当てており、概念的理解を支援するために構造化された、解釈可能な可視化の重要な役割を見下ろしている。
教育環境におけるFMの視覚的推論能力を評価するために,マルチドメインのマルチレベルベンチマークであるEduVisBenchを導入する。
EduVisBenchは、視覚的に接地された解を必要とする多様なSTEM問題セットと、教育学理論によって通知されるきめ細かい評価ルーリックを特徴としている。
我々の経験的分析によると、既存のモデルは複雑な推論を分解し、人間の認知過程に沿った視覚的表現に変換するという固有の課題にしばしば苦労している。
これらの制約に対処するため、教育計画、推論分解、メタ認知的プロンプト、可視化設計のための特殊エージェントをコーディネートするマルチエージェント協調フレームワークであるEduVisAgentを提案する。
実験の結果、EduVisAgentは全てのベースラインを大幅に上回り、40.2%の改善とより教育的に整合した視覚化を提供することがわかった。
EduVisBenchとEduVisAgentはhttps://github.com/aiming-lab/EduVisBenchとhttps://github.com/aiming-lab/EduVisAgentで入手できる。
関連論文リスト
- Explain with Visual Keypoints Like a Real Mentor! A Benchmark for Multimodal Solution Explanation [19.4261670152456]
本稿では,新しい視覚的要素を取り入れた視覚的解法記述法を提案する。
視覚的キーポイントとそれに対応する説明文をアノテートした997個の数学問題からなるベンチマークであるMathExplainを提案する。
実験の結果、いくつかのクローズド・ソース・モデルは、視覚的ソリューション記述に有望な能力を示すが、現在のオープンソース・汎用・モデルは矛盾なく機能することを示した。
論文 参考訳(メタデータ) (2025-04-04T06:03:13Z) - Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。
この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。
テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文 参考訳(メタデータ) (2024-12-26T05:41:31Z) - VipAct: Visual-Perception Enhancement via Specialized VLM Agent Collaboration and Tool-use [74.39058448757645]
視覚言語モデル(VLM)を強化するエージェントフレームワークであるVipActを提案する。
VipActは、タスク要求の分析、計画、調整を管理するオーケストレータエージェントと、特定のタスクを処理する専門エージェントで構成される。
様々な視覚認知タスクを特徴とするベンチマーク上でのVipActの評価を行い,実験結果から大幅な性能向上が得られた。
論文 参考訳(メタデータ) (2024-10-21T18:10:26Z) - X-Former: Unifying Contrastive and Reconstruction Learning for MLLMs [49.30255148577368]
X-FormerはCLとMIMの相補的な強度を利用するために設計された軽量トランスフォーマーモジュールである。
X-Formerは、2つの凍結した視覚エンコーダから視覚言語表現学習とマルチモーダル・マルチモーダル生成学習をブートストラップする。
さらに、凍結したLLMから視覚から言語への生成学習をブートストラップし、X-Formerの視覚的特徴をLLMで解釈できるようにする。
論文 参考訳(メタデータ) (2024-07-18T18:39:54Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - InsightSee: Advancing Multi-agent Vision-Language Models for Enhanced Visual Understanding [12.082379948480257]
本稿では,複雑な視覚理解シナリオを扱う上で,視覚言語モデルの能力を高めるためのマルチエージェントフレームワークであるInsightSeeを提案する。
このフレームワークは、視覚情報解釈のプロセスを洗練するために統合される記述エージェントと、2つの推論エージェントと決定エージェントとを含む。
このフレームワークは、9つのベンチマークテストのうち6つで最先端のアルゴリズムよりも優れており、マルチモーダル理解が大幅に進歩している。
論文 参考訳(メタデータ) (2024-05-31T13:56:55Z) - Veagle: Advancements in Multimodal Representation Learning [0.0]
本稿では,既存モデルのマルチモーダル能力を向上するための新しいアプローチを提案する。
提案したモデルであるVeagleは、以前の作品の成功と洞察にインスパイアされたユニークなメカニズムを取り入れています。
以上の結果から,Veagleは既存のモデルよりも優れた性能を示し,性能は5-6%向上した。
論文 参考訳(メタデータ) (2024-01-18T12:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。