論文の概要: ManiBench: A Benchmark for Testing Visual-Logic Drift and Syntactic Hallucinations in Manim Code Generation
- arxiv url: http://arxiv.org/abs/2603.13251v1
- Date: Tue, 24 Feb 2026 13:05:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.231732
- Title: ManiBench: A Benchmark for Testing Visual-Logic Drift and Syntactic Hallucinations in Manim Code Generation
- Title(参考訳): ManiBench: Manimコード生成におけるビジュアルロジックのドリフトと構文の幻覚をテストするベンチマーク
- Authors: Nabin Oli,
- Abstract要約: Manim CE コードを生成する際の LLM 性能を評価するベンチマークである ManiBench を紹介する。
ManiBenchは、Syntactic HallucinationsとVisual-Logic Driftの2つの重要な障害モードをターゲットにしている。
このベンチマークは、計算、線形代数、確率、トポロジー、AIにまたがる5つの困難レベルにまたがる150-200の問題からなる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional benchmarks like HumanEval and MBPP test logic and syntax effectively, but fail when code must produce dynamic, pedagogical visuals. We introduce ManiBench, a specialized benchmark evaluating LLM performance in generating Manim CE code, where temporal fidelity and version-aware API correctness are critical. ManiBench targets two key failure modes: Syntactic Hallucinations (valid Python referencing non-existent or deprecated Manim APIs) and Visual-Logic Drift (generated visuals diverging from intended mathematical logic through timing errors or missing causal relationships). The benchmark comprises 150-200 problems across five difficulty levels spanning calculus, linear algebra, probability, topology, and AI, grounded in analysis of 3Blue1Brown's ManimGL source (53,000 lines, 143 scene classes). Evaluation uses a four-tier framework measuring Executability, Version-Conflict Error Rate, Alignment Score, and Coverage Score. An open-source framework automates evaluation across multiple models and prompting strategies. Code, data and benchmark suite are available at https://github.com/nabin2004/ManiBench. and the dataset is hosted on https://huggingface.co/datasets/nabin2004/ManiBench.
- Abstract(参考訳): HumanEvalやMBPPテストロジックや構文などの従来のベンチマークは効果的に動作するが、コードが動的で教育的なビジュアルを生成する必要がある場合は失敗する。
Manim CE コードを生成する際の LLM 性能を評価する特別なベンチマークである ManiBench を紹介した。
ManiBenchは2つの主要な障害モードをターゲットにしている。構文幻覚(Pythonで非存在または非推奨のManim APIを参照する)とビジュアル論理ドリフト(タイミングエラーや因果関係の欠如によって、意図された数学的論理から分岐する生成ビジュアル)である。
このベンチマークは、3Blue1BrownのManimGLソース(53,000行、シーンクラス143)の分析において、計算、線形代数、確率、トポロジー、AIにまたがる5つの困難レベルにわたる150-200の問題からなる。
評価にはExecutability、Version-Conflict Error Rate、Alignment Score、Coverage Scoreの4層フレームワークを使用する。
オープンソースのフレームワークは、複数のモデルの評価と戦略の推進を自動化する。
コード、データ、ベンチマークスイートはhttps://github.com/nabin2004/ManiBench.comで入手できる。
データセットはhttps://huggingface.co/datasets/nabin2004/ManiBenchにホストされている。
関連論文リスト
- AlgoVeri: An Aligned Benchmark for Verified Code Generation on Classical Algorithms [54.99368693313797]
既存のベンチマークでは、個々の言語/ツールのみをテストするため、パフォーマンス番号は直接比較できない。
このギャップに対処するAlgoVeriは、Dafny、Verus、Leanで77ドルの古典的アルゴリズムのベリコーディングを評価するベンチマークです。
論文 参考訳(メタデータ) (2026-02-10T06:58:26Z) - Tricky$^2$: Towards a Benchmark for Evaluating Human and LLM Error Interactions [11.687400527666476]
Tricky$2$は、GPT-5プログラムとOpenAI-oss-20bプログラムの両方で注入されたエラーで、既存のTickyBugsコーパスを人書きの欠陥で強化するハイブリッドデータセットである。
提案手法では,ヒトの欠陥やプログラム構造を保存しながら,分類誘導型プロンプトフレームワークを用いて機械操作によるバグを発生させる。
得られたコーパスは、人間のみ、LLMのみ、および人間+LLM分割にまたがり、混在するエラー挙動、複数バグの修復、ハイブリッドなヒューマンマシンコードの信頼性の分析を可能にする。
論文 参考訳(メタデータ) (2026-01-26T20:41:16Z) - InfoSynth: Information-Guided Benchmark Synthesis for LLMs [69.80981631587501]
大規模言語モデル (LLM) は推論やコード生成において大きな進歩を見せている。
従来のベンチマーク作成は人手による作業に依存しています。
この作業では、推論ベンチマークの自動生成と評価のための新しいフレームワークであるInfo Synthを紹介した。
論文 参考訳(メタデータ) (2026-01-02T05:26:27Z) - DecoDINO: 3D Human-Scene Contact Prediction with Semantic Classification [0.0]
Decoのフレームワークをベースとした3分岐ネットワークであるDecoDINOを紹介する。
2つのDINOv2 ViT-g/14エンコーダ、バイアスを減らすためにクラスバランスの損失重み付け、局所推論を改善するためにパッチレベルのクロスアテンションを使用する。
DAMONベンチマークでは、DecoDINOは2値接触F1スコアを7$%の値で上げ、(ii)ジオデシックエラーを半減させ、(iii)オブジェクトレベルのセマンティックラベルによる予測を強化した。
論文 参考訳(メタデータ) (2025-10-27T10:46:22Z) - ThrowBench: Benchmarking LLMs by Predicting Runtime Exceptions [4.852619858744873]
大規模言語モデル(LLM)は、コード理解と合成の驚くべき能力を示している。
4つの異なるプログラミング言語で書かれた2,400以上の短いユーザ記述プログラムからなるベンチマークであるThrowBenchを紹介する。
我々は6つの最先端コードLLMのベンチマーク評価を行い、19~38%(F1スコア)の適度なパフォーマンスを確認した。
論文 参考訳(メタデータ) (2025-03-06T09:22:23Z) - EquiBench: Benchmarking Large Language Models' Reasoning about Program Semantics via Equivalence Checking [58.15568681219339]
大規模言語モデル(LLM)を評価するための新しいベンチマークであるEquiBenchを紹介する。
このタスクは、プログラムのセマンティクスについて推論するモデルの能力を直接テストする。
19の最先端LCMを評価し、最も難しいカテゴリでは、最高の精度は63.8%と76.2%であり、50%のランダムベースラインよりわずかに高い。
論文 参考訳(メタデータ) (2025-02-18T02:54:25Z) - Do Large Language Model Benchmarks Test Reliability? [66.1783478365998]
モデル信頼性の定量化について検討する。
信頼性評価におけるこのギャップにより、我々はいわゆるプラチナベンチマークの概念を提案する。
我々は、これらのプラチナベンチマークにおいて、幅広いモデルを評価し、実際、フロンティアLSMは、単純なタスクで失敗を示す。
論文 参考訳(メタデータ) (2025-02-05T18:58:19Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - T5Score: Discriminative Fine-tuning of Generative Evaluation Metrics [94.69907794006826]
我々は、現在利用可能なデータから、教師なし信号と教師なし信号の両方を用いて、両方の世界のベストを結合するフレームワークを提案する。
このアイデアを,mT5をバックボーンとするトレーニング信号を使用するメトリックであるT5Scoreをトレーニングすることで,運用する。
T5Scoreは、セグメントレベルの既存のトップスコアメトリクスに対して、すべてのデータセットで最高のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-12-12T06:29:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。