Fugu-MT 論文翻訳(概要): Plot2Code: A Comprehensive Benchmark for Evaluating Multi-modal Large Language Models in Code Generation from Scientific Plots

論文の概要: Plot2Code: A Comprehensive Benchmark for Evaluating Multi-modal Large Language Models in Code Generation from Scientific Plots

arxiv url: http://arxiv.org/abs/2405.07990v1
Date: Mon, 13 May 2024 17:59:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-14 12:36:51.902475
Title: Plot2Code: A Comprehensive Benchmark for Evaluating Multi-modal Large Language Models in Code Generation from Scientific Plots
Title（参考訳）: Plot2Code: 科学的プロットからのコード生成における多モード大言語モデル評価のための総合ベンチマーク
Authors: Chengyue Wu, Yixiao Ge, Qiushan Guo, Jiahao Wang, Zhixuan Liang, Zeyu Lu, Ying Shan, Ping Luo,
Abstract要約: マルチモーダル大言語モデルのための包括的ビジュアルコーディングベンチマークであるPlot2Codeを紹介する。公開されているマットプロットギャラリーから,手作業で選択した高品質なマットプロットプロットを6種類のプロットタイプで収集する。各プロットに対して、ソースコードを慎重に提供し、GPT-4で要約した記述的命令を提供する。
参考スコア（独自算出の注目度）: 66.95139377783966
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The remarkable progress of Multi-modal Large Language Models (MLLMs) has attracted significant attention due to their superior performance in visual contexts. However, their capabilities in turning visual figure to executable code, have not been evaluated thoroughly. To address this, we introduce Plot2Code, a comprehensive visual coding benchmark designed for a fair and in-depth assessment of MLLMs. We carefully collect 132 manually selected high-quality matplotlib plots across six plot types from publicly available matplotlib galleries. For each plot, we carefully offer its source code, and an descriptive instruction summarized by GPT-4. This approach enables Plot2Code to extensively evaluate MLLMs' code capabilities across various input modalities. Furthermore, we propose three automatic evaluation metrics, including code pass rate, text-match ratio, and GPT-4V overall rating, for a fine-grained assessment of the output code and rendered images. Instead of simply judging pass or fail, we employ GPT-4V to make an overall judgement between the generated and reference images, which has been shown to be consistent with human evaluation. The evaluation results, which include analyses of 14 MLLMs such as the proprietary GPT-4V, Gemini-Pro, and the open-sourced Mini-Gemini, highlight the substantial challenges presented by Plot2Code. With Plot2Code, we reveal that most existing MLLMs struggle with visual coding for text-dense plots, heavily relying on textual instruction. We hope that the evaluation results from Plot2Code on visual coding will guide the future development of MLLMs. All data involved with Plot2Code are available at https://huggingface.co/datasets/TencentARC/Plot2Code.
Abstract（参考訳）: MLLM(Multi-modal Large Language Models)の顕著な進歩は、視覚的文脈における優れた性能のために大きな注目を集めている。しかし、ビジュアルフィギュアを実行可能なコードに変換する能力は、十分に評価されていない。そこで我々は,MLLMの公平かつ詳細な評価のために設計された包括的ビジュアルコーディングベンチマークであるPlot2Codeを紹介した。公開されているマットプロットギャラリーから,手作業で選択した高品質なマットプロットプロットを6種類のプロットタイプで収集する。各プロットに対して、ソースコードを慎重に提供し、GPT-4で要約した記述的命令を提供する。このアプローチにより、Plot2Codeは様々な入力モダリティにわたってMLLMのコード能力を広範囲に評価できる。さらに、コードパス率、テキストマッチ率、GPT-4V全体評価を含む3つの自動評価指標を、出力コードと描画画像のきめ細かい評価のために提案する。単にパスやフェールを判断する代わりに、GPT-4Vを用いて生成された画像と参照画像の総合的な判断を行う。評価結果は、プロプライエタリなGPT-4V、Gemini-Pro、オープンソースであるMini-Geminiなど14のMLLMの分析を含むもので、Plot2Codeがもたらす重大な課題を強調している。 Plot2Codeでは、既存のMLLMのほとんどがテキスト・ディエンス・プロットの視覚的コーディングに苦戦し、テキスト・インストラクションに大きく依存していることを明らかにする。 Plot2Codeによるビジュアルコーディングの評価結果が,MLLMの今後の発展を導くことを願っている。 Plot2Codeに関連するすべてのデータはhttps://huggingface.co/datasets/TencentARC/Plot2Codeで入手できる。

関連論文リスト

VisCoder: Fine-Tuning LLMs for Executable Python Visualization Code Generation [37.477428819390006]
提案するVisCode-200Kは,Pythonによる可視化と自己補正のための大規模インストラクションチューニングデータセットである。 1)オープンソースリポジトリからの検証済みプロットコードと自然言語命令と描画プロットのペア,(2)Code-Feedbackからの45Kのマルチターン補正ダイアログ。
論文参考訳（メタデータ） (2025-06-04T13:24:44Z)
R$^2$: A LLM Based Novel-to-Screenplay Generation Framework with Causal Plot Graphs [12.751879151553918]
大規模言語モデル(LLM)に基づく脚本に小説を自動的に適応するフレームワークを提案する。因果組込みプロット線を効果的に抽出してコヒーレントな書き換えを行う。 1) 幻覚の愛着を反復的に発見・排除するA-Aware refinement method (HAR) と, 2 事象因果関係を持つプロット線を効率的に構築する欲求サイクルブレーカリングアルゴリズムに基づく因果プロットグラフ構築法 (CPC) の2つの手法を提案する。
論文参考訳（メタデータ） (2025-03-19T19:09:40Z)
ChartCoder: Advancing Multimodal Large Language Model for Chart-to-Code Generation [90.82566869965011]
textbfChartCoderは、最初の専用チャートからコードへのMLLMである。 textbfChart2Code-160kは、チャート・ツー・コード生成のための、最初の大規模かつ多様なデータセットである。実験によると、ChartCoderは7Bパラメータしか持たないが、チャート・トゥ・コードベンチマークで既存のオープンソースのMLLMを超えている。
論文参考訳（メタデータ） (2025-01-11T17:52:22Z)
Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage [50.84150600032693]
MLLM(Multimodal large language model)は、非常に詳細なキャプションを生成するのに優れるが、幻覚を引き起こすことが多い。我々は,LLM-MLLM協調を利用して与えられたキャプションを補正するマルチエージェント手法を提案する。提案手法は, キャプションの精度を向上し, GPT-4Vによるキャプションの精度を向上する。
論文参考訳（メタデータ） (2024-12-20T01:37:22Z)
Drawing Pandas: A Benchmark for LLMs in Generating Plotting Code [1.5999407512883512]
PandasPlotBenchは、ビジュアルデータ探索のアシスタントとして言語モデルの有効性を評価するように設計されている。データセットには175のユニークなタスクが含まれている。我々の実験は、Matplotlib、Seaborn、Plotlyの3つの可視化ライブラリにわたる主要なLarge Language Model(LLM)を評価した。
論文参考訳（メタデータ） (2024-12-03T19:05:37Z)
Distill Visual Chart Reasoning Ability from LLMs to MLLMs [38.62832112530892]
マルチモーダル大言語モデル(MLLM)における複雑なチャートQ&Aタスクの解決には高度な視覚的推論能力が必要である我々は,LLMからMLLMへの視覚的推論能力を蒸留するための費用効率,効率的,スケーラブルなデータ合成法であるCode-as-Intermediary Translation (CIT)を提案する。我々は、テキストベースの合成技術を用いて、チャート作成コードを構築し、3kの推論集約チャートと20kのQ&Aペアを含むデータセットであるReachQAを作成した。
論文参考訳（メタデータ） (2024-10-24T14:50:42Z)
ChartMimic: Evaluating LMM's Cross-Modal Reasoning Capability via Chart-to-Code Generation [42.945960365307485]
我々は,大規模マルチモーダルモデル(LMM)の視覚的なコード生成能力を評価することを目的とした,新しいベンチマークであるChartMimicを導入する。 ChartMimicには1,000の人造(図、命令、コード)の三つ子が含まれている。既存のコード生成ベンチマークとは異なり、ChartMimicは認知能力のブレンドを調和させるLMMの能力を評価することに重点を置いている。
論文参考訳（メタデータ） (2024-06-14T12:10:51Z)
SEED-Bench-2-Plus: Benchmarking Multimodal Large Language Models with Text-Rich Visual Comprehension [62.40482764691584]
MLLMのテキストに富んだ視覚的理解を評価するためのベンチマークSEED-Bench-2-Plusを紹介する。私たちのベンチマークでは、チャート、マップ、ウェブの3つのカテゴリにまたがる、正確な人間のアノテーションによる2.3Kの多重選択質問で構成されています。我々は,34の著名なMLLMを包含する徹底的な評価を行い,テキストリッチ視覚理解におけるMLLMの現在の限界を強調した。
論文参考訳（メタデータ） (2024-04-25T17:39:35Z)
The All-Seeing Project V2: Towards General Relation Comprehension of the Open World [58.40101895719467]
本稿では,画像のオブジェクト関係を理解するために設計された新しいモデルとデータセットであるAll-Seeing Project V2を紹介する。本稿では,テキスト生成,オブジェクトローカライゼーション,関係理解の定式化を関係会話タスクに統合するAll-Seeing Model V2を提案する。我々のモデルは、画像内の全ての物体を知覚・認識するだけでなく、それらの間の複雑な関係グラフの把握にも優れている。
論文参考訳（メタデータ） (2024-02-29T18:59:17Z)
Q-Bench+: A Benchmark for Multi-modal Foundation Models on Low-level Vision from Single Images to Pairs [71.07108539262721]
低レベルの視覚に関連する人間の言語応答をエミュレートするためのベンチマーク設定を設計する。我々は,MLLMの低レベルの認識関連質問応答と記述評価を,単一画像から画像ペアへ拡張する。複数のMLLMが単一の画像に対して十分な低レベルの視覚能力を持つことを示したが、GPT-4Vのみが人間よりも高い精度で比較できる。
論文参考訳（メタデータ） (2024-02-11T06:44:11Z)
ChartBench: A Benchmark for Complex Visual Reasoning in Charts [36.492851648081405]
MLLM(Multimodal Large Language Models)は画像の理解と生成に優れた能力を示している。現在のベンチマークでは、限定的なチャートタイプと不適切なメトリクスのため、MLLMのチャート理解を正確に評価することができない。複雑な視覚的推論によってチャートの理解とデータの信頼性を評価するための総合的なベンチマークであるChartBenchを提案する。
論文参考訳（メタデータ） (2023-12-26T07:20:55Z)
SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。 SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文参考訳（メタデータ） (2023-11-28T05:53:55Z)
ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。 LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文参考訳（メタデータ） (2023-11-16T12:03:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。