論文の概要: TopoPilot: Reliable Conversational Workflow Automation for Topological Data Analysis and Visualization
- arxiv url: http://arxiv.org/abs/2603.25063v1
- Date: Thu, 26 Mar 2026 05:56:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.131134
- Title: TopoPilot: Reliable Conversational Workflow Automation for Topological Data Analysis and Visualization
- Title(参考訳): TopoPilot: トポロジカルデータ分析と可視化のための信頼性の高い会話ワークフロー自動化
- Authors: Nathaniel Gorski, Shusen Liu, Bei Wang,
- Abstract要約: TopoPilotは、複雑な科学的視覚化を自動化するための信頼性が高くエージェント的なフレームワークである。
TopoPilotは、信頼性の高い運用を保証するために、系統的なガードレールと検証メカニズムを組み込んでいる。
評価では、TopoPilotは99%以上の成功率を達成したが、ベースラインでは50%以下で、包括的なガードレールやチェックがない。
- 参考スコア(独自算出の注目度): 4.62716665682001
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent agentic systems demonstrate that large language models can generate scientific visualizations from natural language. However, reliability remains a major limitation: systems may execute invalid operations, introduce subtle but consequential errors, or fail to request missing information when inputs are underspecified. These issues are amplified in real-world workflows, which often exceed the complexity of standard benchmarks. Ensuring reliability in autonomous visualization pipelines therefore remains an open challenge. We present TopoPilot, a reliable and extensible agentic framework for automating complex scientific visualization workflows. TopoPilot incorporates systematic guardrails and verification mechanisms to ensure reliable operation. While we focus on topological data analysis and visualization as a primary use case, the framework is designed to generalize across visualization domains. TopoPilot adopts a reliability-centered two-agent architecture. An orchestrator agent translates user prompts into workflows composed of atomic backend actions, while a verifier agent evaluates these workflows prior to execution, enforcing structural validity and semantic consistency. This separation of interpretation and verification reduces code-generation errors and enforces correctness guarantees. A modular architecture further improves robustness by isolating components and enabling seamless integration of new descriptors and domain-specific workflows without modifying the core system. To systematically address reliability, we introduce a taxonomy of failure modes and implement targeted safeguards for each class. In evaluations simulating 1,000 multi-turn conversations across 100 prompts, including adversarial and infeasible requests, TopoPilot achieves a success rate exceeding 99%, compared to under 50% for baselines without comprehensive guardrails and checks.
- Abstract(参考訳): 最近のエージェントシステムは、大きな言語モデルが自然言語から科学的可視化を生成することを実証している。
システムは無効な操作を実行したり、微妙だが連続的なエラーを発生させたり、入力が不明確でない場合に行方不明の情報を要求するのに失敗する。
これらの問題は、しばしば標準ベンチマークの複雑さを超える現実世界のワークフローで増幅される。
したがって、自律的な可視化パイプラインにおける信頼性を保証することは、依然としてオープンな課題である。
複雑な科学的可視化ワークフローを自動化するための信頼性と拡張性を備えたエージェントフレームワークであるTopoPilotを提案する。
TopoPilotは、信頼性の高い運用を保証するために、系統的なガードレールと検証メカニズムを組み込んでいる。
我々は、トポロジカルなデータ分析と視覚化を主要なユースケースとして取り上げているが、このフレームワークは可視化ドメインをまたいで一般化するように設計されている。
TopoPilotは信頼性中心の2エージェントアーキテクチャを採用している。
オーケストレータエージェントは、ユーザプロンプトをアトミックバックエンドアクションからなるワークフローに変換し、検証エージェントは実行前にこれらのワークフローを評価し、構造的妥当性とセマンティック一貫性を強制する。
この解釈と検証の分離は、コード生成エラーを減らし、正確性を保証する。
モジュールアーキテクチャは、コンポーネントを分離することで堅牢性をさらに向上し、コアシステムを変更することなく、新しい記述子とドメイン固有のワークフローをシームレスに統合する。
信頼性を体系的に解決するために,障害モードの分類を導入し,各クラスを対象とした安全対策を実装した。
TopoPilotは、100のプロンプトにまたがる1000のマルチターン会話をシミュレートする評価において、99%以上の成功率を達成した。
関連論文リスト
- Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - XAI for Coding Agent Failures: Transforming Raw Execution Traces into Actionable Insights [0.0]
我々は、生エージェントの実行トレースを構造化された人間解釈可能な説明に変換する、体系的な説明可能なAI(XAI)アプローチを提案する。
提案手法では,障害原因の同定を2.8倍高速に行うことができ,実際の実行トレースよりも73%高い精度で修正を提案する。
論文 参考訳(メタデータ) (2026-03-06T06:18:20Z) - Architecture-Aware Multi-Design Generation for Repository-Level Feature Addition [53.50448142467294]
RAIMは、リポジトリレベルの機能追加のための、多設計およびアーキテクチャ対応のフレームワークである。
複数の多様な実装設計を生成することで、線形パッチから切り離される。
NoCode-bench Verifiedデータセットの実験では、RAIMが新しい最先端のパフォーマンスを確立することが示されている。
論文 参考訳(メタデータ) (2026-03-02T12:50:40Z) - The Why Behind the Action: Unveiling Internal Drivers via Agentic Attribution [63.61358761489141]
LLM(Large Language Model)ベースのエージェントは、カスタマーサービス、Webナビゲーション、ソフトウェアエンジニアリングといった現実世界のアプリケーションで広く使われている。
本稿では,タスク結果に関係なく,エージェントの動作を駆動する内部要因を識別する,テキスト汎用エージェント属性のための新しいフレームワークを提案する。
標準ツールの使用やメモリ誘起バイアスのような微妙な信頼性リスクなど、さまざまなエージェントシナリオでフレームワークを検証する。
論文 参考訳(メタデータ) (2026-01-21T15:22:21Z) - Multi-Agent Systems for Dataset Adaptation in Software Engineering: Capabilities, Limitations, and Future Directions [8.97512410819274]
本稿では,データセット適応タスクにおいて,最先端のマルチエージェントシステムがどのように機能するかについて,最初の実証的研究を行う。
我々は、GitHub Copilotを評価し、ROCODEやLogHub2.0といったベンチマークリポジトリからSE研究成果物を適用する。
その結果、現在のシステムはキーファイルを識別し、部分的な適応を生成することができるが、正しい実装を生成することは滅多にない。
論文 参考訳(メタデータ) (2025-11-26T13:26:11Z) - EvoSyn: Generalizable Evolutionary Data Synthesis for Verifiable Learning [63.03672166010434]
我々は、進化的、タスクに依存しない、戦略を導いた、実行可能検証可能なデータ合成フレームワークを紹介します。
問題、多様な候補解、検証成果物を共同で合成する。
これは、人間による注釈付きチェックと戦略によるチェックの合意を強制する一貫性に基づく評価器を通じて戦略を反復的に発見する。
論文 参考訳(メタデータ) (2025-10-20T11:56:35Z) - Metacognitive Self-Correction for Multi-Agent System via Prototype-Guided Next-Execution Reconstruction [58.51530390018909]
大規模言語モデルに基づくマルチエージェントシステムは、協調的な問題解決において優れているが、エラーのカスケードには脆弱である。
我々は,MASにリアルタイム,教師なし,ステップレベルの誤り検出と自己補正を付与するメタ認知フレームワークMASCを提案する。
論文 参考訳(メタデータ) (2025-10-16T05:35:37Z) - Transparent, Evaluable, and Accessible Data Agents: A Proof-of-Concept Framework [0.0]
本稿では、AIエージェントの開発と評価のためのモジュール型コンポーネントベースのアーキテクチャについて述べる。
このシステムは、技術的でないユーザが複雑なデータウェアハウスと対話できるようにすることによって、データアクセシビリティにおける中核的な課題に対処する。
設計の要点は、多層推論フレームワークを通じて達成される透明な意思決定へのコミットメントである。
論文 参考訳(メタデータ) (2025-09-28T23:54:41Z) - AgentCompass: Towards Reliable Evaluation of Agentic Workflows in Production [4.031479494871582]
本稿では,エージェントパイプラインのデプロイ後監視と推論に特化して設計された,最初の評価フレームワークであるAgentを紹介する。
Agentは、主要なメトリクスに関する最先端の結果を達成すると同時に、人間のアノテーションで見逃された重要な問題を明らかにする。
論文 参考訳(メタデータ) (2025-09-18T05:59:04Z) - Integrating Expert Knowledge into Logical Programs via LLMs [3.637365301757111]
ExKLoPは、大規模言語モデルが専門家の知識を論理的推論システムに統合する方法を評価するために設計されたフレームワークである。
この能力は特にエンジニアリングにおいて有用であり、製造業者が推奨する運用範囲などの専門家の知識を、自動化された監視システムに直接組み込むことができる。
論文 参考訳(メタデータ) (2025-02-17T19:18:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。