論文の概要: Toward Automated and Trustworthy Scientific Analysis and Visualization with LLM-Generated Code
- arxiv url: http://arxiv.org/abs/2511.21920v1
- Date: Wed, 26 Nov 2025 21:27:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.299861
- Title: Toward Automated and Trustworthy Scientific Analysis and Visualization with LLM-Generated Code
- Title(参考訳): LLM生成コードによる科学的分析と可視化の自動化に向けて
- Authors: Apu Kumar Chakroborti, Yi Ding, Lipeng Wan,
- Abstract要約: 大規模言語モデル(LLM)は、自然言語記述からコードを生成することで、有望なソリューションを提供する。
実際の研究課題を反映したドメインインスパイアされたプロンプトのベンチマークスイートを構築した。
人間の介入なしには, LLM生成コードの信頼性は限られている。
- 参考スコア(独自算出の注目度): 6.068120728706316
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As modern science becomes increasingly data-intensive, the ability to analyze and visualize large-scale, complex datasets is critical to accelerating discovery. However, many domain scientists lack the programming expertise required to develop custom data analysis workflows, creating barriers to timely and effective insight. Large language models (LLMs) offer a promising solution by generating executable code from natural language descriptions. In this paper, we investigate the trustworthiness of open-source LLMs in autonomously producing Python scripts for scientific data analysis and visualization. We construct a benchmark suite of domain-inspired prompts that reflect real-world research tasks and systematically evaluate the executability and correctness of the generated code. Our findings show that, without human intervention, the reliability of LLM-generated code is limited, with frequent failures caused by ambiguous prompts and the models' insufficient understanding of domain-specific contexts. To address these challenges, we design and assess three complementary strategies: data-aware prompt disambiguation, retrieval-augmented prompt enhancement, and iterative error repair. While these methods significantly improve execution success rates and output quality, further refinement is needed. This work highlights both the promise and current limitations of LLM-driven automation in scientific workflows and introduces actionable techniques and a reusable benchmark for building more inclusive, accessible, and trustworthy AI-assisted research tools.
- Abstract(参考訳): 現代の科学はデータ集約化が進むにつれて、大規模で複雑なデータセットを分析し視覚化する能力は発見の加速に欠かせない。
しかし、多くのドメイン科学者は、カスタムデータ分析ワークフローを開発するのに必要なプログラミングの専門知識を欠いている。
大規模言語モデル(LLM)は、自然言語記述から実行可能なコードを生成することで、有望なソリューションを提供する。
本稿では,科学データ分析と可視化のためのPythonスクリプトを自動生成するオープンソースLLMの信頼性について検討する。
実世界の研究課題を反映したドメインインスパイアされたプロンプトのベンチマークスイートを構築し,生成したコードの実行可能性と正しさを体系的に評価する。
人間の介入がなければ、LLM生成コードの信頼性は制限され、不明瞭なプロンプトによる頻繁な失敗や、ドメイン固有のコンテキストに対するモデルの理解が不十分なことが判明した。
これらの課題に対処するために,データ認識型プロンプト曖昧化,検索型プロンプト強化,反復的エラー修復という3つの相補的戦略を設計・評価する。
これらの方法は実行の成功率と出力品質を大幅に改善するが、さらなる改善が必要である。
この研究は、科学ワークフローにおけるLLM駆動自動化の約束と現在の制限の両方を強調し、より包括的でアクセスしやすく、信頼できるAI支援研究ツールを構築するための、実用的なテクニックと再利用可能なベンチマークを導入する。
関連論文リスト
- SelfAI: Building a Self-Training AI System with LLM Agents [79.10991818561907]
SelfAIは、高レベルの研究目的を標準化された実験構成に変換するためのUser Agentを組み合わせた、一般的なマルチエージェントプラットフォームである。
実験マネージャは、連続的なフィードバックのための構造化知識ベースを維持しながら、異種ハードウェアをまたいだ並列かつフォールトトレラントなトレーニングを編成する。
回帰、コンピュータビジョン、科学計算、医用画像、薬物発見ベンチマークなどを通じて、SelfAIは一貫して高いパフォーマンスを達成し、冗長な試行を減らしている。
論文 参考訳(メタデータ) (2025-11-29T09:18:39Z) - From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence [150.3696990310269]
大規模言語モデル(LLM)は、自然言語記述を直接関数コードに変換することによって、自動ソフトウェア開発を変革した。
コードLLMに関する総合的な合成と実践的ガイド(一連の解析および探索実験)を提供する。
一般LLM(GPT-4, Claude, LLaMA)とコード特殊化LLM(StarCoder, Code LLaMA, DeepSeek-Coder, QwenCoder)のコード機能の解析を行う。
論文 参考訳(メタデータ) (2025-11-23T17:09:34Z) - LLM Agents for Interactive Workflow Provenance: Reference Architecture and Evaluation Methodology [3.470217255779291]
本稿では,対話型大規模言語モデル(LLM)エージェントをランタイムデータ解析に活用する評価手法,参照アーキテクチャ,オープンソース実装を提案する。
提案手法では,自然言語を構造化された前処理クエリに変換する軽量なメタデータ駆動型設計を用いる。
LLaMA、GPT、Gemini、Claudeにまたがる評価では、多様なクエリクラスと現実世界の化学ワークフローを網羅し、モジュール設計、即時チューニング、Retrieval-Augmented Generation (RAG)が正確で洞察に富んだエージェント応答を可能にすることを示している。
論文 参考訳(メタデータ) (2025-09-17T13:51:29Z) - Augmenting Large Language Models with Static Code Analysis for Automated Code Quality Improvements [0.36832029288386137]
本研究では,大規模言語モデル(LLM)をソフトウェア開発に組み込んだコード問題検出と修正自動化について検討した。
静的コード分析フレームワークは、大規模なソフトウェアプロジェクトの中でバグや脆弱性、コードの臭いなどの問題を検出する。
検索拡張世代(RAG)は、リビジョンの関連性と精度を高めるために実装される。
論文 参考訳(メタデータ) (2025-06-12T03:39:25Z) - ORMind: A Cognitive-Inspired End-to-End Reasoning Framework for Operations Research [56.961539386979354]
ORMindは認知にインスパイアされたフレームワークで、反ファクト推論を通じて最適化を強化する。
提案手法は,要求を数学的モデルや実行可能なコードに変換するエンド・ツー・エンドのワークフローを実装し,人間の認識をエミュレートする。
現在はLenovoのAIアシスタントで内部でテストされており、ビジネスとコンシューマの両方の最適化機能を強化する予定である。
論文 参考訳(メタデータ) (2025-06-02T05:11:21Z) - GateLens: A Reasoning-Enhanced LLM Agent for Automotive Software Release Analytics [9.549568621873386]
GateLensは、自動車分野のデータ分析のためのLLMベースのシステムである。
遅くて不透明でメンテナンスにコストがかかる従来のマルチエージェントや計画ベースのシステムとは異なり、GateLensはスピード、透明性、信頼性を強調している。
論文 参考訳(メタデータ) (2025-03-27T17:48:32Z) - Synthetic Data Generation Using Large Language Models: Advances in Text and Code [0.0]
大規模言語モデル(LLM)は、自然言語とコードドメインの両方で合成トレーニングデータ生成を変換している。
我々は、プロンプトベースの生成、検索拡張パイプライン、反復的な自己精製といった重要なテクニックを強調した。
本稿では,生成テキストにおける事実的不正確性,文体的あるいは分布的リアリズムの不足,バイアス増幅のリスクなど,関連する課題について論じる。
論文 参考訳(メタデータ) (2025-03-18T08:34:03Z) - AIRepr: An Analyst-Inspector Framework for Evaluating Reproducibility of LLMs in Data Science [8.281093505963158]
大規模言語モデル(LLM)は、実行可能なコード生成を通じてデータ分析を自動化するために、ますます使われるようになっている。
本稿では,LLM生成データ分析の自動評価と改善のための分析・検査フレームワークであるAIReprについて述べる。
論文 参考訳(メタデータ) (2025-02-23T01:15:50Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。