論文の概要: ALGOGEN: Tool-Generated Verifiable Traces for Reliable Algorithm Visualization
- arxiv url: http://arxiv.org/abs/2605.12159v1
- Date: Tue, 12 May 2026 14:09:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.905201
- Title: ALGOGEN: Tool-Generated Verifiable Traces for Reliable Algorithm Visualization
- Title(参考訳): ALGOGEN:信頼性の高いアルゴリズム可視化のためのツール生成検証トレース
- Authors: Kunpeng Liao, Yuexiao Ma, Yisheng Lin, Hualin Zeng, Xiawu Zheng, Rongrong Ji,
- Abstract要約: アルゴリズムの可視化(AV)は、アルゴリズムの実行状態をアニメーションすることで、生徒がメンタルモデルを構築するのに役立つ。
CODE2VIDEOのような最近のLCMベースのシステムは、エンドツーエンドでAVビデオを生成する。
このパラダイムでは、アルゴリズムフローを同時にシミュレートし、ビデオレンダリングの制約を満たす必要がある。
可視化から実行を分離する新しいパラダイムであるALGOGENを提案する。
- 参考スコア(独自算出の注目度): 58.40239235264315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Algorithm Visualization (AV) helps students build mental models by animating algorithm execution states. Recent LLM-based systems such as CODE2VIDEO generate AV videos in an end-to-end manner. However, this paradigm requires the system to simultaneously simulate algorithm flow and satisfy video rendering constraints, such as element layout and color schemes. This complex task induces LLM hallucinations, resulting in reduced execution success rates, element overlap, and inter-frame inconsistencies. To address these challenges, we propose ALGOGEN, a novel paradigm that decouples algorithm execution from rendering. We first introduce Visualization Trace Algebra (VTA), a monoid over algorithm visual states and operations. The LLM then generates a Python tracker that simulates algorithm flow and outputs VTA-JSON traces, a JSON encoding of VTA. For rendering, we define a Rendering Style Language (RSL) to templatize algorithm layouts. A deterministic renderer then compiles algorithm traces with RSL into Manim, LaTeX/TikZ, or Three.js outputs. Evaluated on a LeetCode AV benchmark of 200 tasks, ALGOGEN achieves an average success rate improvement of 17.3% compared to end-to-end methods, with 99.8% versus 82.5%. These results demonstrate that our decoupling paradigm effectively mitigates LLM hallucinations in complex AV tasks, providing a more reliable solution for automated generation of high-quality algorithm visualizations. Demo videos and code are available in the project repository.
- Abstract(参考訳): アルゴリズムの可視化(AV)は、アルゴリズムの実行状態をアニメーションすることで、生徒がメンタルモデルを構築するのに役立つ。
CODE2VIDEOのような最近のLCMベースのシステムは、エンドツーエンドでAVビデオを生成する。
しかし、このパラダイムでは、アルゴリズムフローを同時にシミュレートし、要素レイアウトやカラースキームのようなビデオレンダリングの制約を満たす必要がある。
この複雑なタスクはLLM幻覚を誘導し、実行の成功率、要素重複、フレーム間の不整合を減少させる。
これらの課題に対処するため、アルゴリズムの実行をレンダリングから切り離す新しいパラダイムであるALGOGENを提案する。
本稿ではまず,アルゴリズムの視覚状態と操作に対するモノノイドであるビジュアライゼーショントレース代数(VTA)を紹介する。
LLMはアルゴリズムフローをシミュレートするPythonトラッカーを生成し、VTAのJSONエンコーディングであるVTA-JSONトレースを出力する。
レンダリングでは、アルゴリズムレイアウトをテンプレート化するレンダリングスタイル言語(RSL)を定義します。
決定論的レンダラーは、RSLでアルゴリズムトレースをManim、LaTeX/TikZ、あるいはThree.js出力にコンパイルする。
ALGOGENは200タスクのLeetCode AVベンチマークで評価され、エンド・ツー・エンドの手法と比較して平均成功率が17.3%向上し、99.8%対82.5%となった。
これらの結果から,このデカップリングパラダイムは複雑なAVタスクにおけるLLM幻覚を効果的に軽減し,高品質なアルゴリズム視覚化の自動生成のための信頼性の高いソリューションを提供することが示された。
デモビデオとコードはプロジェクトリポジトリで公開されている。
関連論文リスト
- Prism: Efficient Test-Time Scaling via Hierarchical Search and Self-Verification for Discrete Diffusion Language Models [96.0074341403456]
LLM推論を改善するための実用的な方法として、推論時計算が再導入されている。
テスト時間スケーリング(TTS)アルゴリズムの多くは、自動回帰デコーディングに依存している。
そこで我々は,dLLM のための効率的な TTS フレームワーク Prism を提案する。
論文 参考訳(メタデータ) (2026-02-02T09:14:51Z) - Evaluating Efficiency and Novelty of LLM-Generated Code for Graph Analysis [0.1274452325287335]
大規模言語モデル(LLM)は、ソフトウェア開発の自動化にますます使われています。
本稿では、グラフ解析ルーチンの効率的なC実装を生成するLLMの能力について包括的に研究する。
これらのモデルがトランスフォーメーションアルゴリズムテクニックを発明する可能性は、将来の研究にとって魅力的なフロンティアである。
論文 参考訳(メタデータ) (2025-07-09T00:46:30Z) - DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。
まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。
第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文 参考訳(メタデータ) (2025-04-23T18:38:18Z) - AIM: Adaptive Inference of Multi-Modal LLMs via Token Merging and Pruning [19.68349294206012]
大規模言語モデル(LLM)は、画像やビデオなどの視覚的データの強力な理解を示すマルチモーダルLLMの作成を可能にする。
多様な効率要件を満たすマルチモーダルLCMの学習自由適応推論法を提案する。
論文 参考訳(メタデータ) (2024-12-04T11:47:57Z) - SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Code Simulation Challenges for Large Language Models [6.970495767499435]
この研究は、LLM(Large Language Models)がいかにコーディングやアルゴリズムのタスクをシミュレートできるかを研究する。
我々は、直線プログラムのベンチマーク、クリティカルパスを含むコード、近似命令および冗長命令を導入する。
本稿では,コンパイラのパターンを行/フォローすることで,LLMにコード実行行をシミュレートするように指示する,OFFプロンプト手法であるChain of Simulation(CoSm)を提案する。
論文 参考訳(メタデータ) (2024-01-17T09:23:59Z) - ALGO: Synthesizing Algorithmic Programs with LLM-Generated Oracle
Verifiers [60.6418431624873]
大きな言語モデル(LLM)は、機能記述からコードを実装するのに優れているが、アルゴリズムの問題に悩まされている。
我々は,アルゴリズムプログラムを LLM 生成 Oracle で合成するフレームワーク ALGO を提案し,その生成をガイドし,その正確性を検証する。
実験の結果,ALGOを装着すると,Codexモデルよりも8倍,CodeTよりも2.6倍の1サブミッションパス率が得られることがわかった。
論文 参考訳(メタデータ) (2023-05-24T00:10:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。