論文の概要: PlotGen: Multi-Agent LLM-based Scientific Data Visualization via Multimodal Feedback
- arxiv url: http://arxiv.org/abs/2502.00988v1
- Date: Mon, 03 Feb 2025 02:00:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:04:38.488367
- Title: PlotGen: Multi-Agent LLM-based Scientific Data Visualization via Multimodal Feedback
- Title(参考訳): PlotGen:マルチモーダルフィードバックによるマルチエージェントLDMに基づく科学データ可視化
- Authors: Kanika Goswami, Puneet Mathur, Ryan Rossi, Franck Dernoncourt,
- Abstract要約: PlotGenは、精密な科学的可視化を作成することを目的とした、新しいマルチエージェントフレームワークである。
PlotGenは複数のオーケストレーションを行う。
ブレークするクエリプランニングエージェントを含む、検索エージェント。
複雑なユーザリクエストを実行可能コードにダウンします。
回収フィードバックエージェント
実験によると、PlotGenは強力なベースラインよりも優れており、MateBenchデータセットで46%改善されている。
- 参考スコア(独自算出の注目度): 47.79080056618323
- License:
- Abstract: Scientific data visualization is pivotal for transforming raw data into comprehensible visual representations, enabling pattern recognition, forecasting, and the presentation of data-driven insights. However, novice users often face difficulties due to the complexity of selecting appropriate tools and mastering visualization techniques. Large Language Models (LLMs) have recently demonstrated potential in assisting code generation, though they struggle with accuracy and require iterative debugging. In this paper, we propose PlotGen, a novel multi-agent framework aimed at automating the creation of precise scientific visualizations. PlotGen orchestrates multiple LLM-based agents, including a Query Planning Agent that breaks down complex user requests into executable steps, a Code Generation Agent that converts pseudocode into executable Python code, and three retrieval feedback agents - a Numeric Feedback Agent, a Lexical Feedback Agent, and a Visual Feedback Agent - that leverage multimodal LLMs to iteratively refine the data accuracy, textual labels, and visual correctness of generated plots via self-reflection. Extensive experiments show that PlotGen outperforms strong baselines, achieving a 4-6 percent improvement on the MatPlotBench dataset, leading to enhanced user trust in LLM-generated visualizations and improved novice productivity due to a reduction in debugging time needed for plot errors.
- Abstract(参考訳): 科学的データの可視化は、生データを理解可能な視覚表現に変換する上で重要なものであり、パターン認識、予測、データ駆動の洞察の提示を可能にする。
しかし、初心者のユーザは、適切なツールを選択し、視覚化技術を習得する複雑さのために、しばしば困難に直面します。
大規模言語モデル(LLM)は最近、コード生成を支援する可能性を実証した。
本稿では,精密な科学的視覚化の自動化を目的とした,新しいマルチエージェントフレームワークであるPlotGenを提案する。
PlotGenは、複雑なユーザリクエストを実行可能なステップに分解するクエリプランニングエージェント、疑似コードを実行可能なPythonコードに変換するコード生成エージェント、3つの検索フィードバックエージェント(数値フィードバックエージェント、語彙フィードバックエージェント、ビジュアルフィードバックエージェント)を含む複数のLCMベースのエージェントを編成する。
大規模な実験によると、PlotGenは強力なベースラインよりも優れており、MatchPlotBenchデータセットで46%改善されている。
関連論文リスト
- nvAgent: Automated Data Visualization from Natural Language via Collaborative Agent Workflow [9.676697360425196]
自然言語から可視化へ(NL2Vis)は、自然言語記述を与えられたテーブルの視覚表現に変換する。
我々はNL2Visのための協調エージェントワークフローであるnvAgentを提案する。
新しいVisEvalベンチマークに関する総合的な評価は、nvAgentが最先端のベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-02-07T16:03:08Z) - Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining [67.87810796668981]
インフォメーション・インフォメーション・インフォメーション・クロッピング(ISC)と自己精製デュアルラーニング(SRDL)
Irisは850KのGUIアノテーションだけで、複数のベンチマークで最先端のパフォーマンスを実現している。
これらの改善は、WebとOSエージェントの両方の下流タスクで大幅に向上した。
論文 参考訳(メタデータ) (2024-12-13T18:40:10Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - RGD: Multi-LLM Based Agent Debugger via Refinement and Generation Guidance [0.6062751776009752]
大規模言語モデル(LLM)は、コード生成タスクにおいて驚くべきポテンシャルを示しています。
LLMはタスク記述に基づいてコードを生成することができるが、精度は限られている。
コード生成と自動デバッグのためのLLMエージェントの新しいアーキテクチャ:Refinement and Guidancebug (RGD)を紹介する。
RGDはコード生成タスクを複数のステップに分割し、より明確なワークフローを確保し、自己回帰とフィードバックに基づいた反復的なコード改善を可能にする。
論文 参考訳(メタデータ) (2024-10-02T05:07:02Z) - Data Formulator 2: Iteratively Creating Rich Visualizations with AI [65.48447317310442]
これらの課題に対処するためのLCMを利用した可視化システムであるData Formulator 2を提案する。
Data Formulator 2では、ユーザはUIと自然言語をブレンドして視覚化の意図を記述し、データ変換はAIに委譲される。
イテレーションをサポートするため、Data Formulator 2では、ユーザがイテレーション履歴をナビゲートし、以前の設計を新しい設計に再利用することで、毎回スクラッチから始める必要がない。
論文 参考訳(メタデータ) (2024-08-28T20:12:17Z) - AvaTaR: Optimizing LLM Agents for Tool Usage via Contrastive Reasoning [93.96463520716759]
大規模言語モデル(LLM)エージェントは、精度と幻覚を高めるために外部ツールと知識を活用する際、印象的な能力を示した。
本稿では、LLMエージェントを最適化して提供されたツールを効果的に活用し、与えられたタスクのパフォーマンスを向上させる新しい自動化フレームワークであるAvaTaRを紹介する。
論文 参考訳(メタデータ) (2024-06-17T04:20:02Z) - MatPlotAgent: Method and Evaluation for LLM-Based Agentic Scientific Data Visualization [86.61052121715689]
MatPlotAgentは、科学的データ可視化タスクを自動化するために設計された、モデルに依存しないフレームワークである。
MatPlotBenchは、100人の検証されたテストケースからなる高品質なベンチマークである。
論文 参考訳(メタデータ) (2024-02-18T04:28:28Z) - PiVe: Prompting with Iterative Verification Improving Graph-based Generative Capability of LLMs [28.33598529903845]
大規模言語モデルの出力の検証モジュールとして機能するために,小言語モデルをいかに訓練するかを示す。
また,検証モジュールがテキスト・ツー・グラフ生成タスクに対して,よりコスト効率のよいソリューションのために,繰り返し修正をオフラインで適用できることを示す。
論文 参考訳(メタデータ) (2023-05-21T08:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。