論文の概要: Plot2Code: A Comprehensive Benchmark for Evaluating Multi-modal Large Language Models in Code Generation from Scientific Plots
- arxiv url: http://arxiv.org/abs/2405.07990v1
- Date: Mon, 13 May 2024 17:59:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 12:36:51.902475
- Title: Plot2Code: A Comprehensive Benchmark for Evaluating Multi-modal Large Language Models in Code Generation from Scientific Plots
- Title(参考訳): Plot2Code: 科学的プロットからのコード生成における多モード大言語モデル評価のための総合ベンチマーク
- Authors: Chengyue Wu, Yixiao Ge, Qiushan Guo, Jiahao Wang, Zhixuan Liang, Zeyu Lu, Ying Shan, Ping Luo,
- Abstract要約: マルチモーダル大言語モデルのための包括的ビジュアルコーディングベンチマークであるPlot2Codeを紹介する。
公開されているマットプロットギャラリーから,手作業で選択した高品質なマットプロットプロットを6種類のプロットタイプで収集する。
各プロットに対して、ソースコードを慎重に提供し、GPT-4で要約した記述的命令を提供する。
- 参考スコア(独自算出の注目度): 66.95139377783966
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The remarkable progress of Multi-modal Large Language Models (MLLMs) has attracted significant attention due to their superior performance in visual contexts. However, their capabilities in turning visual figure to executable code, have not been evaluated thoroughly. To address this, we introduce Plot2Code, a comprehensive visual coding benchmark designed for a fair and in-depth assessment of MLLMs. We carefully collect 132 manually selected high-quality matplotlib plots across six plot types from publicly available matplotlib galleries. For each plot, we carefully offer its source code, and an descriptive instruction summarized by GPT-4. This approach enables Plot2Code to extensively evaluate MLLMs' code capabilities across various input modalities. Furthermore, we propose three automatic evaluation metrics, including code pass rate, text-match ratio, and GPT-4V overall rating, for a fine-grained assessment of the output code and rendered images. Instead of simply judging pass or fail, we employ GPT-4V to make an overall judgement between the generated and reference images, which has been shown to be consistent with human evaluation. The evaluation results, which include analyses of 14 MLLMs such as the proprietary GPT-4V, Gemini-Pro, and the open-sourced Mini-Gemini, highlight the substantial challenges presented by Plot2Code. With Plot2Code, we reveal that most existing MLLMs struggle with visual coding for text-dense plots, heavily relying on textual instruction. We hope that the evaluation results from Plot2Code on visual coding will guide the future development of MLLMs. All data involved with Plot2Code are available at https://huggingface.co/datasets/TencentARC/Plot2Code.
- Abstract(参考訳): MLLM(Multi-modal Large Language Models)の顕著な進歩は、視覚的文脈における優れた性能のために大きな注目を集めている。
しかし、ビジュアルフィギュアを実行可能なコードに変換する能力は、十分に評価されていない。
そこで我々は,MLLMの公平かつ詳細な評価のために設計された包括的ビジュアルコーディングベンチマークであるPlot2Codeを紹介した。
公開されているマットプロットギャラリーから,手作業で選択した高品質なマットプロットプロットを6種類のプロットタイプで収集する。
各プロットに対して、ソースコードを慎重に提供し、GPT-4で要約した記述的命令を提供する。
このアプローチにより、Plot2Codeは様々な入力モダリティにわたってMLLMのコード能力を広範囲に評価できる。
さらに、コードパス率、テキストマッチ率、GPT-4V全体評価を含む3つの自動評価指標を、出力コードと描画画像のきめ細かい評価のために提案する。
単にパスやフェールを判断する代わりに、GPT-4Vを用いて生成された画像と参照画像の総合的な判断を行う。
評価結果は、プロプライエタリなGPT-4V、Gemini-Pro、オープンソースであるMini-Geminiなど14のMLLMの分析を含むもので、Plot2Codeがもたらす重大な課題を強調している。
Plot2Codeでは、既存のMLLMのほとんどがテキスト・ディエンス・プロットの視覚的コーディングに苦戦し、テキスト・インストラクションに大きく依存していることを明らかにする。
Plot2Codeによるビジュアルコーディングの評価結果が,MLLMの今後の発展を導くことを願っている。
Plot2Codeに関連するすべてのデータはhttps://huggingface.co/datasets/TencentARC/Plot2Codeで入手できる。
関連論文リスト
- PlotGen: Multi-Agent LLM-based Scientific Data Visualization via Multimodal Feedback [47.79080056618323]
PlotGenは、精密な科学的可視化を作成することを目的とした、新しいマルチエージェントフレームワークである。
PlotGenは複数のオーケストレーションを行う。
ブレークするクエリプランニングエージェントを含む、検索エージェント。
複雑なユーザリクエストを実行可能コードにダウンします。
回収フィードバックエージェント
実験によると、PlotGenは強力なベースラインよりも優れており、MateBenchデータセットで46%改善されている。
論文 参考訳(メタデータ) (2025-02-03T02:00:29Z) - ChartCoder: Advancing Multimodal Large Language Model for Chart-to-Code Generation [90.82566869965011]
textbfChartCoderは、最初の専用チャートからコードへのMLLMである。
textbfChart2Code-160kは、チャート・ツー・コード生成のための、最初の大規模かつ多様なデータセットである。
実験によると、ChartCoderは7Bパラメータしか持たないが、チャート・トゥ・コードベンチマークで既存のオープンソースのMLLMを超えている。
論文 参考訳(メタデータ) (2025-01-11T17:52:22Z) - Drawing Pandas: A Benchmark for LLMs in Generating Plotting Code [1.5999407512883512]
本稿では,人間によるPandasPlotBenchデータセットを紹介する。
視覚データ探索の補助として言語モデルの有効性を評価するように設計されている。
論文 参考訳(メタデータ) (2024-12-03T19:05:37Z) - Distill Visual Chart Reasoning Ability from LLMs to MLLMs [38.62832112530892]
マルチモーダル大言語モデル(MLLM)における複雑なチャートQ&Aタスクの解決には高度な視覚的推論能力が必要である
我々は,LLMからMLLMへの視覚的推論能力を蒸留するための費用効率,効率的,スケーラブルなデータ合成法であるCode-as-Intermediary Translation (CIT)を提案する。
我々は、テキストベースの合成技術を用いて、チャート作成コードを構築し、3kの推論集約チャートと20kのQ&Aペアを含むデータセットであるReachQAを作成した。
論文 参考訳(メタデータ) (2024-10-24T14:50:42Z) - SEED-Bench-2-Plus: Benchmarking Multimodal Large Language Models with Text-Rich Visual Comprehension [62.40482764691584]
MLLMのテキストに富んだ視覚的理解を評価するためのベンチマークSEED-Bench-2-Plusを紹介する。
私たちのベンチマークでは、チャート、マップ、ウェブの3つのカテゴリにまたがる、正確な人間のアノテーションによる2.3Kの多重選択質問で構成されています。
我々は,34の著名なMLLMを包含する徹底的な評価を行い,テキストリッチ視覚理解におけるMLLMの現在の限界を強調した。
論文 参考訳(メタデータ) (2024-04-25T17:39:35Z) - Q-Bench+: A Benchmark for Multi-modal Foundation Models on Low-level Vision from Single Images to Pairs [71.07108539262721]
低レベルの視覚に関連する人間の言語応答をエミュレートするためのベンチマーク設定を設計する。
我々は,MLLMの低レベルの認識関連質問応答と記述評価を,単一画像から画像ペアへ拡張する。
複数のMLLMが単一の画像に対して十分な低レベルの視覚能力を持つことを示したが、GPT-4Vのみが人間よりも高い精度で比較できる。
論文 参考訳(メタデータ) (2024-02-11T06:44:11Z) - ChartBench: A Benchmark for Complex Visual Reasoning in Charts [36.492851648081405]
MLLM(Multimodal Large Language Models)は画像の理解と生成に優れた能力を示している。
現在のベンチマークでは、限定的なチャートタイプと不適切なメトリクスのため、MLLMのチャート理解を正確に評価することができない。
複雑な視覚的推論によってチャートの理解とデータの信頼性を評価するための総合的なベンチマークであるChartBenchを提案する。
論文 参考訳(メタデータ) (2023-12-26T07:20:55Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。