論文の概要: Drawing Pandas: A Benchmark for LLMs in Generating Plotting Code
- arxiv url: http://arxiv.org/abs/2412.02764v1
- Date: Tue, 03 Dec 2024 19:05:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:10:20.165244
- Title: Drawing Pandas: A Benchmark for LLMs in Generating Plotting Code
- Title(参考訳): 描画パンダ: プロッティングコード生成におけるLLMのベンチマーク
- Authors: Timur Galimzyanov, Sergey Titov, Yaroslav Golubev, Egor Bogomolov,
- Abstract要約: 本稿では,人間によるPandasPlotBenchデータセットを紹介する。
視覚データ探索の補助として言語モデルの有効性を評価するように設計されている。
- 参考スコア(独自算出の注目度): 1.5999407512883512
- License:
- Abstract: This paper introduces the human-curated PandasPlotBench dataset, designed to evaluate language models' effectiveness as assistants in visual data exploration. Our benchmark focuses on generating code for visualizing tabular data - such as a Pandas DataFrame - based on natural language instructions, complementing current evaluation tools and expanding their scope. The dataset includes 175 unique tasks. Our experiments assess several leading Large Language Models (LLMs) across three visualization libraries: Matplotlib, Seaborn, and Plotly. We show that the shortening of tasks has a minimal effect on plotting capabilities, allowing for the user interface that accommodates concise user input without sacrificing functionality or accuracy. Another of our findings reveals that while LLMs perform well with popular libraries like Matplotlib and Seaborn, challenges persist with Plotly, highlighting areas for improvement. We hope that the modular design of our benchmark will broaden the current studies on generating visualizations. Our benchmark is available online: https://huggingface.co/datasets/JetBrains-Research/plot_bench. The code for running the benchmark is also available: https://github.com/JetBrains-Research/PandasPlotBench.
- Abstract(参考訳): 本稿では,視覚データ探索の補助役として言語モデルの有効性を評価するために,人為的なPandasPlotBenchデータセットを提案する。
我々のベンチマークは、自然言語命令に基づいて表データ(Pandas DataFrameなど)を視覚化するコードを生成すること、現在の評価ツールを補完すること、スコープを拡大することに焦点を当てている。
データセットには175のユニークなタスクが含まれている。
我々の実験は、Matplotlib、Seaborn、Plotlyの3つの可視化ライブラリにわたる主要なLarge Language Model(LLM)を評価した。
タスクの短縮がプロット機能に最小限の影響を及ぼすことを示し、機能や精度を犠牲にすることなく、簡潔なユーザ入力に対応するユーザインタフェースを実現する。
もうひとつの発見は、LSMがMatplotlibやSeabornといったポピュラーなライブラリとうまく機能しているのに対して、Plotlyでは課題が続き、改善すべき領域が浮かび上がっている、ということです。
当社のベンチマークのモジュラー設計が、可視化生成に関する現在の研究を拡大することを期待しています。
私たちのベンチマークはオンラインで公開されている。 https://huggingface.co/datasets/JetBrains-Research/plot_bench。
ベンチマークを実行するためのコードは、https://github.com/JetBrains-Research/PandasPlotBench.comで公開されている。
関連論文リスト
- Can Large Language Models Analyze Graphs like Professionals? A Benchmark, Datasets and Models [90.98855064914379]
グラフを処理するために,大規模言語モデル(LLM)のベンチマークであるProGraphを導入する。
その結果,現在のLCMの性能は不満足であり,最高のモデルでは36%の精度しか達成できないことがわかった。
本研究では,6つの広く使用されているグラフライブラリに基づいて,クローリングされたドキュメントと自動生成コードを含むLLM4Graphデータセットを提案する。
論文 参考訳(メタデータ) (2024-09-29T11:38:45Z) - Comgra: A Tool for Analyzing and Debugging Neural Networks [35.89730807984949]
PyTorchで使用するオープンソースのpythonライブラリであるcomgraを紹介します。
Comgraはモデルの内部アクティベーションに関するデータを抽出し、GUIで整理する。
要約統計と個々のデータポイントの両方を示し、トレーニングの初期段階と後期を比較し、関心のある個々のサンプルに注目し、ネットワークを通しての勾配の流れを可視化する。
論文 参考訳(メタデータ) (2024-07-31T14:57:23Z) - PyBench: Evaluating LLM Agent on various real-world coding tasks [13.347173063163138]
PyBenchは、現実世界のタスクの5つの主要なカテゴリをカバーするベンチマークで、10種類以上のファイルをカバーする。
我々の評価は、現在のオープンソースLLMがこれらのタスクに苦戦していることを示している。
微調整された8Bサイズモデル: textbfPyLlama3はPyBench上でエキサイティングなパフォーマンスを実現します。
論文 参考訳(メタデータ) (2024-07-23T15:23:14Z) - Plot2Code: A Comprehensive Benchmark for Evaluating Multi-modal Large Language Models in Code Generation from Scientific Plots [66.95139377783966]
マルチモーダル大言語モデルのための包括的ビジュアルコーディングベンチマークであるPlot2Codeを紹介する。
公開されているマットプロットギャラリーから,手作業で選択した高品質なマットプロットプロットを6種類のプロットタイプで収集する。
各プロットに対して、ソースコードを慎重に提供し、GPT-4で要約した記述的命令を提供する。
論文 参考訳(メタデータ) (2024-05-13T17:59:22Z) - SPRINT: A Unified Toolkit for Evaluating and Demystifying Zero-shot
Neural Sparse Retrieval [92.27387459751309]
ニューラルスパース検索を評価するための統一PythonツールキットであるSPRINTを提供する。
我々は、よく認識されているベンチマークBEIRにおいて、強く再現可能なゼロショットスパース検索ベースラインを確立する。
SPLADEv2は、元のクエリとドキュメントの外で、ほとんどのトークンでスパース表現を生成する。
論文 参考訳(メタデータ) (2023-07-19T22:48:02Z) - Plotly-Resampler: Effective Visual Analytics for Large Time Series [1.0756377625425109]
Plotly-ResamplerはPlotlyのPythonバインディング用のアドオンで、インタラクティブなツールキットの上にラインチャートのスケーラビリティを向上する。
Plotly-Resamplerのフレキシブルなデータアグリゲーション機能は、新しいアグリゲーション技術の研究への道を開く。
論文 参考訳(メタデータ) (2022-06-17T16:12:55Z) - PyGOD: A Python Library for Graph Outlier Detection [56.33769221859135]
PyGODは、グラフデータの外れ値を検出するオープンソースライブラリである。
外れ値検出のための主要なグラフベースのメソッドを幅広くサポートしています。
PyGODはBSD 2-Clauseライセンスの下でhttps://pygod.orgとPython Package Index (PyPI)でリリースされている。
論文 参考訳(メタデータ) (2022-04-26T06:15:21Z) - Picasso: A Sparse Learning Library for High Dimensional Data Analysis in
R and Python [77.33905890197269]
本稿では,様々なスパース学習問題に対して,経路座標を統一的に最適化する新しいライブラリについて述べる。
ライブラリはR++でコード化されており、ユーザフレンドリーなスパース実験を行っている。
論文 参考訳(メタデータ) (2020-06-27T02:39:24Z) - Little Ball of Fur: A Python Library for Graph Sampling [8.089234432461804]
Little Ball of Furは、20以上のグラフサンプリングアルゴリズムを含むPythonライブラリである。
本稿では,ソーシャルネットワークとWebグラフのグローバルな統計を推定することにより,図書館の実用性を示す。
論文 参考訳(メタデータ) (2020-06-08T01:35:24Z) - Open Graph Benchmark: Datasets for Machine Learning on Graphs [86.96887552203479]
スケーラブルで堅牢で再現可能なグラフ機械学習(ML)の研究を容易にするために,Open Graph Benchmark(OGB)を提案する。
OGBデータセットは大規模で、複数の重要なグラフMLタスクを含み、さまざまなドメインをカバーする。
各データセットに対して,有意義なアプリケーション固有のデータ分割と評価指標を用いた統一評価プロトコルを提供する。
論文 参考訳(メタデータ) (2020-05-02T03:09:50Z) - giotto-tda: A Topological Data Analysis Toolkit for Machine Learning and
Data Exploration [4.8353738137338755]
giotto-tdaは、高性能なトポロジカルデータ分析と機械学習を統合するPythonライブラリである。
このライブラリの様々な種類のデータを扱う能力は、幅広い事前処理技術に根ざしている。
論文 参考訳(メタデータ) (2020-04-06T10:53:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。