論文の概要: Toward Automated and Trustworthy Scientific Analysis and Visualization with LLM-Generated Code
- arxiv url: http://arxiv.org/abs/2511.21920v1
- Date: Wed, 26 Nov 2025 21:27:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.299861
- Title: Toward Automated and Trustworthy Scientific Analysis and Visualization with LLM-Generated Code
- Title(参考訳): LLM生成コードによる科学的分析と可視化の自動化に向けて
- Authors: Apu Kumar Chakroborti, Yi Ding, Lipeng Wan,
- Abstract要約: 大規模言語モデル(LLM)は、自然言語記述からコードを生成することで、有望なソリューションを提供する。
実際の研究課題を反映したドメインインスパイアされたプロンプトのベンチマークスイートを構築した。
人間の介入なしには, LLM生成コードの信頼性は限られている。
- 参考スコア(独自算出の注目度): 6.068120728706316
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As modern science becomes increasingly data-intensive, the ability to analyze and visualize large-scale, complex datasets is critical to accelerating discovery. However, many domain scientists lack the programming expertise required to develop custom data analysis workflows, creating barriers to timely and effective insight. Large language models (LLMs) offer a promising solution by generating executable code from natural language descriptions. In this paper, we investigate the trustworthiness of open-source LLMs in autonomously producing Python scripts for scientific data analysis and visualization. We construct a benchmark suite of domain-inspired prompts that reflect real-world research tasks and systematically evaluate the executability and correctness of the generated code. Our findings show that, without human intervention, the reliability of LLM-generated code is limited, with frequent failures caused by ambiguous prompts and the models' insufficient understanding of domain-specific contexts. To address these challenges, we design and assess three complementary strategies: data-aware prompt disambiguation, retrieval-augmented prompt enhancement, and iterative error repair. While these methods significantly improve execution success rates and output quality, further refinement is needed. This work highlights both the promise and current limitations of LLM-driven automation in scientific workflows and introduces actionable techniques and a reusable benchmark for building more inclusive, accessible, and trustworthy AI-assisted research tools.
- Abstract(参考訳): 現代の科学はデータ集約化が進むにつれて、大規模で複雑なデータセットを分析し視覚化する能力は発見の加速に欠かせない。
しかし、多くのドメイン科学者は、カスタムデータ分析ワークフローを開発するのに必要なプログラミングの専門知識を欠いている。
大規模言語モデル(LLM)は、自然言語記述から実行可能なコードを生成することで、有望なソリューションを提供する。
本稿では,科学データ分析と可視化のためのPythonスクリプトを自動生成するオープンソースLLMの信頼性について検討する。
実世界の研究課題を反映したドメインインスパイアされたプロンプトのベンチマークスイートを構築し,生成したコードの実行可能性と正しさを体系的に評価する。
人間の介入がなければ、LLM生成コードの信頼性は制限され、不明瞭なプロンプトによる頻繁な失敗や、ドメイン固有のコンテキストに対するモデルの理解が不十分なことが判明した。
これらの課題に対処するために,データ認識型プロンプト曖昧化,検索型プロンプト強化,反復的エラー修復という3つの相補的戦略を設計・評価する。
これらの方法は実行の成功率と出力品質を大幅に改善するが、さらなる改善が必要である。
この研究は、科学ワークフローにおけるLLM駆動自動化の約束と現在の制限の両方を強調し、より包括的でアクセスしやすく、信頼できるAI支援研究ツールを構築するための、実用的なテクニックと再利用可能なベンチマークを導入する。
関連論文リスト
- LLM Agents for Interactive Workflow Provenance: Reference Architecture and Evaluation Methodology [3.470217255779291]
本稿では,対話型大規模言語モデル(LLM)エージェントをランタイムデータ解析に活用する評価手法,参照アーキテクチャ,オープンソース実装を提案する。
提案手法では,自然言語を構造化された前処理クエリに変換する軽量なメタデータ駆動型設計を用いる。
LLaMA、GPT、Gemini、Claudeにまたがる評価では、多様なクエリクラスと現実世界の化学ワークフローを網羅し、モジュール設計、即時チューニング、Retrieval-Augmented Generation (RAG)が正確で洞察に富んだエージェント応答を可能にすることを示している。
論文 参考訳(メタデータ) (2025-09-17T13:51:29Z) - AIRepr: An Analyst-Inspector Framework for Evaluating Reproducibility of LLMs in Data Science [8.281093505963158]
大規模言語モデル(LLM)は、実行可能なコード生成を通じてデータ分析を自動化するために、ますます使われるようになっている。
本稿では,LLM生成データ分析の自動評価と改善のための分析・検査フレームワークであるAIReprについて述べる。
論文 参考訳(メタデータ) (2025-02-23T01:15:50Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。