Fugu-MT 論文翻訳(概要): LLM Agents for Interactive Workflow Provenance: Reference Architecture and Evaluation Methodology

論文の概要: LLM Agents for Interactive Workflow Provenance: Reference Architecture and Evaluation Methodology

arxiv url: http://arxiv.org/abs/2509.13978v2
Date: Tue, 23 Sep 2025 13:31:18 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-24 14:02:59.889419
Title: LLM Agents for Interactive Workflow Provenance: Reference Architecture and Evaluation Methodology
Title（参考訳）: 対話型ワークフローのためのLLMエージェント:リファレンスアーキテクチャと評価手法
Authors: Renan Souza, Timothy Poteet, Brian Etz, Daniel Rosendo, Amal Gueroudji, Woong Shin, Prasanna Balaprakash, Rafael Ferreira da Silva,
Abstract要約: 本稿では,対話型大規模言語モデル(LLM)エージェントをランタイムデータ解析に活用する評価手法,参照アーキテクチャ,オープンソース実装を提案する。提案手法では,自然言語を構造化された前処理クエリに変換する軽量なメタデータ駆動型設計を用いる。 LLaMA、GPT、Gemini、Claudeにまたがる評価では、多様なクエリクラスと現実世界の化学ワークフローを網羅し、モジュール設計、即時チューニング、Retrieval-Augmented Generation (RAG)が正確で洞察に富んだエージェント応答を可能にすることを示している。
参考スコア（独自算出の注目度）: 3.470217255779291
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Modern scientific discovery increasingly relies on workflows that process data across the Edge, Cloud, and High Performance Computing (HPC) continuum. Comprehensive and in-depth analyses of these data are critical for hypothesis validation, anomaly detection, reproducibility, and impactful findings. Although workflow provenance techniques support such analyses, at large scale, the provenance data become complex and difficult to analyze. Existing systems depend on custom scripts, structured queries, or static dashboards, limiting data interaction. In this work, we introduce an evaluation methodology, reference architecture, and open-source implementation that leverages interactive Large Language Model (LLM) agents for runtime data analysis. Our approach uses a lightweight, metadata-driven design that translates natural language into structured provenance queries. Evaluations across LLaMA, GPT, Gemini, and Claude, covering diverse query classes and a real-world chemistry workflow, show that modular design, prompt tuning, and Retrieval-Augmented Generation (RAG) enable accurate and insightful LLM agent responses beyond recorded provenance.
Abstract（参考訳）: 現代の科学的発見は、エッジ、クラウド、ハイパフォーマンスコンピューティング(HPC)連続体にまたがるデータを処理するワークフローにますます依存している。これらのデータの包括的および詳細な分析は、仮説検証、異常検出、再現性、影響のある発見に重要である。ワークフローの前処理技術はそのような分析をサポートするが、大規模にすると、前処理データが複雑になり、分析が困難になる。既存のシステムはカスタムスクリプト、構造化クエリ、静的ダッシュボードに依存し、データインタラクションを制限している。本研究では,対話型大規模言語モデル(LLM)エージェントをランタイムデータ解析に活用する評価手法,参照アーキテクチャ,オープンソース実装を紹介する。提案手法では,自然言語を構造化された前処理クエリに変換する軽量なメタデータ駆動型設計を用いる。 LLaMA、GPT、Gemini、Claudeでの評価では、多様なクエリクラスと現実世界の化学ワークフローをカバーし、モジュラー設計、迅速なチューニング、Retrieval-Augmented Generation (RAG)が、記録された証明を超えた正確で洞察に富んだLCMエージェント応答を可能にしていることを示している。

関連論文リスト

Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs [66.63911043019294]
データ準備は、生のデータセットを識別し、データセット間の関係を解明し、それらから貴重な洞察を抽出することを目的としている。本稿では,様々な下流タスクのためのデータ準備にLLM技術を用いることに焦点を当てる。データクリーニング、標準化、エラー処理、計算、データ統合、データ豊か化という3つの主要なタスクにフィールドを編成するタスク中心の分類を導入します。
論文参考訳（メタデータ） (2026-01-22T12:02:45Z)
FROAV: A Framework for RAG Observation and Agent Verification - Lowering the Barrier to LLM Agent Research [0.5729426778193398]
本稿では,LLM(Large Language Models)エージェント研究を民主化する,オープンソースの研究プラットフォームであるFROAVを紹介する。 FROAVは、マルチステージのRetrieval-Augmented Generation (RAG)パイプラインと、厳格な"LLM-as-a-Judge"評価システムを実装している。我々のフレームワークは、ノーコードワークフロー設計にn8n、フレキシブルバックエンドロジックにFastAPI、ヒューマン・イン・ザ・ループインタラクションにStreamlitを統合しています。
論文参考訳（メタデータ） (2026-01-12T13:02:32Z)
Toward Automated and Trustworthy Scientific Analysis and Visualization with LLM-Generated Code [6.068120728706316]
大規模言語モデル(LLM)は、自然言語記述からコードを生成することで、有望なソリューションを提供する。実際の研究課題を反映したドメインインスパイアされたプロンプトのベンチマークスイートを構築した。人間の介入なしには, LLM生成コードの信頼性は限られている。
論文参考訳（メタデータ） (2025-11-26T21:27:03Z)
Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。 Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文参考訳（メタデータ） (2025-10-17T02:33:16Z)
LLM/Agent-as-Data-Analyst: A Survey [54.08761322298559]
大規模言語モデル(LLM)とエージェント技術は、データ分析タスクの機能と開発パラダイムに根本的な変化をもたらした。 LLMは複雑なデータ理解、自然言語、意味分析機能、自律パイプラインオーケストレーションを可能にする。
論文参考訳（メタデータ） (2025-09-28T17:31:38Z)
From Parameters to Performance: A Data-Driven Study on LLM Structure and Development [73.67759647072519]
大規模言語モデル(LLM)は、様々な領域で大きな成功を収めている。モデルスケールと能力の急激な成長にもかかわらず、構造構成がパフォーマンスに与える影響に関する体系的なデータ駆動の研究は依然として少ない。多様なオープンソースLLM構造を含む大規模データセットと,その性能を複数のベンチマークで比較した。
論文参考訳（メタデータ） (2025-09-14T12:20:39Z)
Leveraging Knowledge Graphs and LLM Reasoning to Identify Operational Bottlenecks for Warehouse Planning Assistance [1.2749527861829046]
我々のフレームワークは知識グラフ(KG)とLarge Language Model(LLM)ベースのエージェントを統合している。生のDESデータを意味的にリッチなKGに変換し、シミュレーションイベントとエンティティの関係をキャプチャする。 LLMベースのエージェントは反復推論を使用し、相互依存的なサブクエストを生成する。各サブクエストに対して、KGインタラクションのためのCypherクエリを生成し、情報を抽出し、エラーを修正する。
論文参考訳（メタデータ） (2025-07-23T07:18:55Z)
IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文参考訳（メタデータ） (2025-05-23T09:37:52Z)
MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。 MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文参考訳（メタデータ） (2025-05-12T17:35:43Z)
AI-Driven Scholarly Peer Review via Persistent Workflow Prompting, Meta-Prompting, and Meta-Reasoning [0.0]
本稿では,PWP(Persistent Prompting)について紹介する。本稿では,実験化学原稿の批判的分析のための概念実証PWPプロンプトを提案する。我々は,このPWPプロンプトを,専門家レビューの体系化を目的としたメタプロンプト技術とメタ推論の反復的適用により開発する。
論文参考訳（メタデータ） (2025-05-06T09:06:18Z)
AIRepr: An Analyst-Inspector Framework for Evaluating Reproducibility of LLMs in Data Science [8.281093505963158]
大規模言語モデル(LLM)は、実行可能なコード生成を通じてデータ分析を自動化するために、ますます使われるようになっている。本稿では,LLM生成データ分析の自動評価と改善のための分析・検査フレームワークであるAIReprについて述べる。
論文参考訳（メタデータ） (2025-02-23T01:15:50Z)
LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文参考訳（メタデータ） (2024-02-26T07:33:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。