論文の概要: MatPlotAgent: Method and Evaluation for LLM-Based Agentic Scientific
Data Visualization
- arxiv url: http://arxiv.org/abs/2402.11453v1
- Date: Sun, 18 Feb 2024 04:28:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 21:11:55.662320
- Title: MatPlotAgent: Method and Evaluation for LLM-Based Agentic Scientific
Data Visualization
- Title(参考訳): MatPlotAgent: LLMに基づくエージェント科学データの可視化手法と評価
- Authors: Zhiyu Yang, Zihan Zhou, Shuo Wang, Xin Cong, Xu Han, Yukun Yan,
Zhenghao Liu, Zhixing Tan, Pengyuan Liu, Dong Yu, Zhiyuan Liu, Xiaodong Shi,
Maosong Sun
- Abstract要約: MatPlotAgentは、科学的データ可視化タスクを自動化するために設計された、モデルに依存しないフレームワークである。
MatPlotBenchは、100人の検証されたテストケースからなる高品質なベンチマークである。
- 参考スコア(独自算出の注目度): 88.72769238904908
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scientific data visualization plays a crucial role in research by enabling
the direct display of complex information and assisting researchers in
identifying implicit patterns. Despite its importance, the use of Large
Language Models (LLMs) for scientific data visualization remains rather
unexplored. In this study, we introduce MatPlotAgent, an efficient
model-agnostic LLM agent framework designed to automate scientific data
visualization tasks. Leveraging the capabilities of both code LLMs and
multi-modal LLMs, MatPlotAgent consists of three core modules: query
understanding, code generation with iterative debugging, and a visual feedback
mechanism for error correction. To address the lack of benchmarks in this
field, we present MatPlotBench, a high-quality benchmark consisting of 100
human-verified test cases. Additionally, we introduce a scoring approach that
utilizes GPT-4V for automatic evaluation. Experimental results demonstrate that
MatPlotAgent can improve the performance of various LLMs, including both
commercial and open-source models. Furthermore, the proposed evaluation method
shows a strong correlation with human-annotated scores.
- Abstract(参考訳): 科学データ可視化は、複雑な情報の直接表示を可能にし、暗黙のパターンを識別する研究者を支援することによって、研究において重要な役割を果たす。
その重要性にもかかわらず、科学的データの可視化にLarge Language Models (LLMs) を用いることは、まだ明らかになっていない。
本研究では,科学的データ可視化タスクの自動化を目的とした,効率的なモデルに依存しないLLMエージェントフレームワークであるMatPlotAgentを紹介する。
matplotagentは,コードllmとマルチモーダルllmの両方の機能を活用することで,クエリ理解,反復デバッグによるコード生成,エラー修正のための視覚的フィードバック機構という3つのコアモジュールで構成される。
この分野でのベンチマークの欠如に対処するため、100の人間検証テストケースからなる高品質なベンチマークであるMatPlotBenchを紹介した。
さらに, GPT-4V を用いた自動評価手法を提案する。
実験の結果,matplotagentは商用モデルとオープンソースモデルの両方を含む様々なllmの性能を向上させることができた。
さらに,提案手法は,人間の注記スコアと強い相関関係を示す。
関連論文リスト
- Vi(E)va LLM! A Conceptual Stack for Evaluating and Interpreting
Generative AI-based Visualizations [1.709620026135923]
大規模言語モデル(LLM)は、可視化に関連する生成タスクをサポートするための興味深い選択肢となっている。
本稿では,LLMを用いて生成した可視化の評価をモデル化する問題に対処する。
本稿では,原子部品の評価を分解する理論評価スタックEvaLLMを提案する。
論文 参考訳(メタデータ) (2024-02-03T14:28:55Z) - Benchmarking Large Language Models As AI Research Agents [105.65277755304277]
我々は,AI研究エージェントをベンチマークするMLタスクスイートであるMLAgentBenchを提案する。
我々は, GPT-4をベースとした研究エージェントが, MLAgentBenchの多くのタスクにおいて, 魅力的なMLモデルを構築できることを発見した。
長期計画や幻覚など,LSMをベースとした研究エージェントにとって重要な課題をいくつか挙げる。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data
Selection for Instruction Tuning [54.222609226692015]
我々は大規模言語モデルのための自己誘導手法を導入し、大規模なオープンソースデータセットからサクラサンプルを自律的に識別し、選択する。
私たちの重要なイノベーションであるIFD(Instruction-Following Difficulty)メトリックは、モデルが期待する応答と自動生成技術との間の相違を識別するための重要なツールとして現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。