論文の概要: LLM Agents for Interactive Workflow Provenance: Reference Architecture and Evaluation Methodology
- arxiv url: http://arxiv.org/abs/2509.13978v1
- Date: Wed, 17 Sep 2025 13:51:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.857287
- Title: LLM Agents for Interactive Workflow Provenance: Reference Architecture and Evaluation Methodology
- Title(参考訳): 対話型ワークフローのためのLLMエージェント:リファレンスアーキテクチャと評価手法
- Authors: Renan Souza, Timothy Poteet, Brian Etz, Daniel Rosendo, Amal Gueroudji, Woong Shin, Prasanna Balaprakash, Rafael Ferreira da Silva,
- Abstract要約: 本稿では,対話型大規模言語モデル(LLM)エージェントをランタイムデータ解析に活用する評価手法,参照アーキテクチャ,オープンソース実装を提案する。
提案手法では,自然言語を構造化された前処理クエリに変換する軽量なメタデータ駆動型設計を用いる。
LLaMA、GPT、Gemini、Claudeにまたがる評価では、多様なクエリクラスと現実世界の化学ワークフローを網羅し、モジュール設計、即時チューニング、Retrieval-Augmented Generation (RAG)が正確で洞察に富んだエージェント応答を可能にすることを示している。
- 参考スコア(独自算出の注目度): 3.470217255779291
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern scientific discovery increasingly relies on workflows that process data across the Edge, Cloud, and High Performance Computing (HPC) continuum. Comprehensive and in-depth analyses of these data are critical for hypothesis validation, anomaly detection, reproducibility, and impactful findings. Although workflow provenance techniques support such analyses, at large scale, the provenance data become complex and difficult to analyze. Existing systems depend on custom scripts, structured queries, or static dashboards, limiting data interaction. In this work, we introduce an evaluation methodology, reference architecture, and open-source implementation that leverages interactive Large Language Model (LLM) agents for runtime data analysis. Our approach uses a lightweight, metadata-driven design that translates natural language into structured provenance queries. Evaluations across LLaMA, GPT, Gemini, and Claude, covering diverse query classes and a real-world chemistry workflow, show that modular design, prompt tuning, and Retrieval-Augmented Generation (RAG) enable accurate and insightful LLM agent responses beyond recorded provenance.
- Abstract(参考訳): 現代の科学的発見は、エッジ、クラウド、ハイパフォーマンスコンピューティング(HPC)連続体にまたがるデータを処理するワークフローにますます依存している。
これらのデータの包括的および詳細な分析は、仮説検証、異常検出、再現性、影響のある発見に重要である。
ワークフローの前処理技術はそのような分析をサポートするが、大規模にすると、前処理データが複雑になり、分析が困難になる。
既存のシステムはカスタムスクリプト、構造化クエリ、静的ダッシュボードに依存し、データインタラクションを制限している。
本研究では,対話型大規模言語モデル(LLM)エージェントをランタイムデータ解析に活用する評価手法,参照アーキテクチャ,オープンソース実装を紹介する。
提案手法では,自然言語を構造化された前処理クエリに変換する軽量なメタデータ駆動型設計を用いる。
LLaMA、GPT、Gemini、Claudeでの評価では、多様なクエリクラスと現実世界の化学ワークフローをカバーし、モジュラー設計、迅速なチューニング、Retrieval-Augmented Generation (RAG)が、記録された証明を超えた正確で洞察に富んだLCMエージェント応答を可能にしていることを示している。
関連論文リスト
- Leveraging Knowledge Graphs and LLM Reasoning to Identify Operational Bottlenecks for Warehouse Planning Assistance [1.2749527861829046]
我々のフレームワークは知識グラフ(KG)とLarge Language Model(LLM)ベースのエージェントを統合している。
生のDESデータを意味的にリッチなKGに変換し、シミュレーションイベントとエンティティの関係をキャプチャする。
LLMベースのエージェントは反復推論を使用し、相互依存的なサブクエストを生成する。各サブクエストに対して、KGインタラクションのためのCypherクエリを生成し、情報を抽出し、エラーを修正する。
論文 参考訳(メタデータ) (2025-07-23T07:18:55Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。
MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。
完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文 参考訳(メタデータ) (2025-05-12T17:35:43Z) - AI-Driven Scholarly Peer Review via Persistent Workflow Prompting, Meta-Prompting, and Meta-Reasoning [0.0]
本稿では,PWP(Persistent Prompting)について紹介する。
本稿では,実験化学原稿の批判的分析のための概念実証PWPプロンプトを提案する。
我々は,このPWPプロンプトを,専門家レビューの体系化を目的としたメタプロンプト技術とメタ推論の反復的適用により開発する。
論文 参考訳(メタデータ) (2025-05-06T09:06:18Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。