論文の概要: OpusAnimation: Code-Based Dynamic Chart Generation
- arxiv url: http://arxiv.org/abs/2510.03341v1
- Date: Thu, 02 Oct 2025 13:19:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:58.847308
- Title: OpusAnimation: Code-Based Dynamic Chart Generation
- Title(参考訳): OpusAnimation: コードベースの動的チャート生成
- Authors: Bozheng Li, Miao Yang, Zhenhan Chen, Jiawang Cao, Mushui Liu, Yi Lu, Yongliang Wu, Bin Zhang, Yangguang Ji, Licheng Tang, Jay Wu, Wenbo Zhu,
- Abstract要約: 我々は,動的チャート生成タスクにおけるMLLMの能力を評価する最初のベンチマークであるDCG-Benchを紹介する。
我々は、コードとビデオの評価の両方のために、命令コードとビデオのトリプレットとQAペアをカバーするアノテーションを備えた高品質なDCGデータセットDCG-8Kを構築した。
ベンチマークの結果,ビジュアル・ツー・チャート・タスクにおける既存のMLLMの欠点が明らかとなり,我々のモデルは3つのタスクで平均8.31%の性能向上を達成し,最高のオープンソースMLLMを上回った。
- 参考スコア(独自算出の注目度): 15.763453583321004
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dynamic Chart Generation (DCG) involves producing code-rendered animated visualizations as charts. While recent advances in multi-modal large language models (MLLMs) have significantly improved their capability on static chart generation and comprehension, MLLMs' potential for handling dynamic chart generation and understanding remains underexplored. To bridge this research gap, we introduce DCG-Bench (Dynamic Chart Generation Benchmark), the first benchmark evaluating MLLM's capability on dynamic chart generation tasks from three dimensions: Simple Text-to-Chart, Detailed Text-to-Chart, and Video-to-Chart tasks. We construct DCG-8K, a high-quality DCG dataset with annotations covering instruction-code-video triplets and QA pairs for both code and video evaluation. Based on DCG-8K, we explored a two-stage training recipe, proposing Joint-Code-Visual Reward for group relative policy optimization to construct expert MLLM Qwen2.5-VL-DCG-3B for the DCG task. Our benchmarking result reveals shortcomings of existing MLLMs in the visual-to-chart task, and our model beats the best open-sourced MLLM with an average 8.31% performance gain across three tasks, and shows on par performance against proprietary models with only 3B parameters, proving the effectiveness of our training recipe. Our code and dataset will be publicly available.
- Abstract(参考訳): ダイナミックチャート生成(Dynamic Chart Generation、DCG)は、コードレンダリングされたアニメーションをチャートとして作成する。
近年のマルチモーダル大言語モデル(MLLM)の進歩は静的チャート生成と理解においてその能力を大幅に向上させてきたが、動的チャート生成と理解を扱うMLLMの潜在能力は未定のままである。
この研究ギャップを埋めるために、我々は3次元からMLLMの動的チャート生成タスク(Simple Text-to-Chart、Detailed Text-to-Chart、Video-to-Chartタスク)の能力を評価する最初のベンチマークであるDCG-Bench(Dynamic Chart Generation Benchmark)を紹介した。
我々は、コードとビデオの評価の両方のために、命令コードとビデオのトリプレットとQAペアをカバーするアノテーションを備えた高品質なDCGデータセットDCG-8Kを構築した。
DCG-8Kをベースとして,グループ相対政策最適化のためのジョイント・コード・ビジュアル・リワードを提案し,DCGタスクのためのMLLM Qwen2.5-VL-DCG-3Bを構築した。
ベンチマークの結果,既存のMLLMでは3つのタスクに対して平均8.31%のパフォーマンス向上を達成し,3Bパラメータしか持たないプロプライエタリモデルに対して同等の性能を示し,トレーニングレシピの有効性を実証した。
コードとデータセットは公開されます。
関連論文リスト
- Socratic Chart: Cooperating Multiple Agents for Robust SVG Chart Understanding [14.75820681491341]
既存のベンチマークでは、真の視覚的推論ではなく、テキストベースのショートカットと確率的パターンマッチングに依存している。
グラフ画像をスケーラブルベクトルグラフ表現に変換する新しいフレームワークであるSocratic Chartを提案する。
我々のフレームワークは、グラフプリミティブを正確にキャプチャし、推論性能を向上させるために最先端モデルを上回る。
論文 参考訳(メタデータ) (2025-04-14T00:07:39Z) - Boosting Chart-to-Code Generation in MLLM via Dual Preference-Guided Refinement [16.22363384653305]
MLLM(Multimodal Large Language Models)は、きめ細かい視覚解析、正確なコード合成、堅牢なクロスモーダル推論を行う。
本稿では、フィードバック駆動の2つのモダリティ報酬機構と反復的な嗜好学習を組み合わせた2つの嗜好誘導改善フレームワークを提案する。
本フレームワークは汎用MLLMの性能を大幅に向上させ,高品質なプロットコードを生成する。
論文 参考訳(メタデータ) (2025-04-03T07:51:20Z) - ChartCoder: Advancing Multimodal Large Language Model for Chart-to-Code Generation [62.88742217569754]
textbfChartCoderは、最初の専用チャートからコードへのMLLMである。
textbfChart2Code-160kは、チャート・ツー・コード生成のための、最初の大規模かつ多様なデータセットである。
実験によると、ChartCoderは7Bパラメータしか持たないが、チャート・トゥ・コードベンチマークで既存のオープンソースのMLLMを超えている。
論文 参考訳(メタデータ) (2025-01-11T17:52:22Z) - Distill Visual Chart Reasoning Ability from LLMs to MLLMs [64.32993770646165]
マルチモーダル大言語モデル(MLLM)における複雑なチャートQ&Aタスクの解決には高度な視覚的推論能力が必要である
我々は,LLMからMLLMへの視覚的推論能力を蒸留するための費用効率,効率,スケーラブルなデータ合成手法であるCode-as-Intermediary Translation (CIT)を提案する。
ReachQAは、MLLMの認識と推論能力を高めるために、3kの推論集約チャートと20kのQ&Aペアを含むデータセットである。
論文 参考訳(メタデータ) (2024-10-24T14:50:42Z) - TinyChart: Efficient Chart Understanding with Visual Token Merging and Program-of-Thoughts Learning [83.58521787193293]
本稿では,3Bパラメータのみを用いたチャート理解のための効率的なMLLMであるTinyChartを提案する。
TinyChartは,1)プログラム・オブ・ソート(PoT)学習戦略による数値計算学習の負担軽減,2)ビジョン・トーケン・マージ・モジュールによる高解像度画像のためのビジョン・トランスフォーマーによって生成される長大な視覚特徴系列の削減という,効率的なチャート理解における2つの課題を克服した。
論文 参考訳(メタデータ) (2024-04-25T14:23:24Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。