論文の概要: DiagramIR: An Automatic Pipeline for Educational Math Diagram Evaluation
- arxiv url: http://arxiv.org/abs/2511.08283v1
- Date: Wed, 12 Nov 2025 01:50:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.737454
- Title: DiagramIR: An Automatic Pipeline for Educational Math Diagram Evaluation
- Title(参考訳): DiagramIR: 教育数学のダイアグラム評価のための自動パイプライン
- Authors: Vishal Kumar, Shubhra Mishra, Rebecca Hao, Rizwaan Malik, David Broman, Dorottya Demszky,
- Abstract要約: 幾何学的図形の自動評価パイプラインDiagramIRを提案する。
この評価手法により、GPT-4.1-Miniのような小型モデルでも10倍のコストでGPT-5のような大型モデルと互換性がある。
- 参考スコア(独自算出の注目度): 6.0365808337728835
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs) are increasingly being adopted as tools for learning; however, most tools remain text-only, limiting their usefulness for domains where visualizations are essential, such as mathematics. Recent work shows that LLMs are capable of generating code that compiles to educational figures, but a major bottleneck remains: scalable evaluation of these diagrams. We address this by proposing DiagramIR: an automatic and scalable evaluation pipeline for geometric figures. Our method relies on intermediate representations (IRs) of LaTeX TikZ code. We compare our pipeline to other evaluation baselines such as LLM-as-a-Judge, showing that our approach has higher agreement with human raters. This evaluation approach also enables smaller models like GPT-4.1-Mini to perform comparably to larger models such as GPT-5 at a 10x lower inference cost, which is important for deploying accessible and scalable education technologies.
- Abstract(参考訳): 大規模言語モデル(LLM)は、学習のためのツールとしてますます採用されているが、ほとんどのツールはテキストのみであり、数学のような視覚化が不可欠である領域において、その有用性を制限している。
最近の研究によると、LLMは教育用図にコンパイルされるコードを生成することができるが、大きなボトルネックは、これらの図のスケーラブルな評価である。
幾何学的図形の自動評価パイプラインであるDigramIRを提案することでこの問題に対処する。
提案手法はLaTeX TikZ符号の中間表現(IR)に依存する。
パイプラインとLCM-as-a-Judgeなどの他の評価ベースラインを比較し,本手法がヒトのレーナーと高い一致を示した。
この評価手法により、GPT-4.1-Miniのような小型モデルでも、GPT-5のような大型モデルと10倍の推論コストで互換性があり、アクセスしやすくスケーラブルな教育技術の展開に重要である。
関連論文リスト
- Automated Visualization Makeovers with LLMs [0.716879432974126]
ビジュアライゼーションのフェイルオーバーは、コミュニティがフィードバックを交換してチャートやデータの視覚化を改善する活動である。
マルチモーダル大言語モデル(LLM)はこのタスクをエミュレートできるだろうか?
当社のシステムは,ユーザガイドラインとデータ視覚化プラクティスの潜伏した知識を併用した,事前学習モデルの迅速なエンジニアリングを中心に構築されている。
論文 参考訳(メタデータ) (2025-07-21T11:51:20Z) - Can Large Language Models Analyze Graphs like Professionals? A Benchmark, Datasets and Models [70.03602551880526]
グラフを処理するために,大規模言語モデル(LLM)のベンチマークであるProGraphを導入する。
その結果,現在のLCMの性能は不満足であり,最高のモデルでは36%の精度しか達成できないことがわかった。
本研究では,6つの広く使用されているグラフライブラリに基づいて,クローリングされたドキュメントと自動生成コードを含むLLM4Graphデータセットを提案する。
論文 参考訳(メタデータ) (2024-09-29T11:38:45Z) - MAVIS: Mathematical Visual Instruction Tuning with an Automatic Data Engine [85.80851893886161]
MLLMのための数学的なVISual命令チューニングパイプラインであるMAVISを提案する。
我々はMAVIS-Captionを用いて、図形視覚符号化の改善に適したコントラスト学習により、数学固有の視覚エンコーダ(CLIP-Math)を微調整する。
第3に、ロバストな問題解決スキルの指導チューニングを行うためにMAVIS-Instructを採用し、結果のモデルをMAVIS-7Bと呼ぶ。
論文 参考訳(メタデータ) (2024-07-11T17:59:47Z) - GLBench: A Comprehensive Benchmark for Graph with Large Language Models [41.89444363336435]
GLBenchは、教師付きシナリオとゼロショットシナリオの両方でGraphLLMメソッドを評価するための最初の包括的なベンチマークである。
GLBenchはグラフニューラルネットワークのような従来のベースラインとともに、GraphLLMメソッドのさまざまなカテゴリを公平かつ徹底的に評価する。
論文 参考訳(メタデータ) (2024-07-10T08:20:47Z) - T-Eval: Evaluating the Tool Utilization Capability of Large Language
Models Step by Step [69.64348626180623]
大規模言語モデル (LLM) は様々なNLPタスクにおいて顕著な性能を達成した。
LLMのツール活用能力の評価と分析方法はまだ未検討である。
ツール利用能力を段階的に評価するためにT-Evalを導入する。
論文 参考訳(メタデータ) (2023-12-21T17:02:06Z) - Structural Embeddings of Tools for Large Language Models [0.0]
LLM(Large Language Models)の現在の状況は、外部ツールの組み入れを必要とすることは明らかである。
特定のタスクに対するツール利用のオントロジ的性質は、DAG(Directed Acyclic Graph)でうまく定式化できる。
LLMによる指数関数的に増加する外部ツールのオーケストレーションを導くための模範的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-01T10:46:09Z) - GPT4Tools: Teaching Large Language Model to Use Tools via
Self-instruction [41.36474802204914]
GPT4Tools は LLaMA や OPT などのオープンソース LLM のツール使用を可能にするための自己インストラクトに基づいている。
先進的な教師に様々なマルチモーダルな文脈で指示追従データセットを生成する。
論文 参考訳(メタデータ) (2023-05-30T05:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。