論文の概要: Exploring Interaction Paradigms for LLM Agents in Scientific Visualization
- arxiv url: http://arxiv.org/abs/2604.27996v1
- Date: Thu, 30 Apr 2026 15:22:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:54.161724
- Title: Exploring Interaction Paradigms for LLM Agents in Scientific Visualization
- Title(参考訳): 科学的可視化のためのLCMエージェントのインタラクションパラダイムの探索
- Authors: Jackson Vonderhorst, Kuangshi Ai, Haichao Miao, Shusen Liu, Chaoli Wang,
- Abstract要約: 本稿では,大規模言語モデル(LLM)エージェントが科学的可視化(SciVis)タスクでどのように機能するかを検討する。
我々は、ドメイン固有のエージェントと構造化ツールの使用、コンピュータ利用エージェント、汎用コーディングエージェントの3つの主要な相互作用パラダイムを比較した。
- 参考スコア(独自算出の注目度): 7.22431217973039
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper examines how different types of large language model (LLM) agents perform on scientific visualization (SciVis) tasks, where users generate visualization workflows from natural-language instructions. We compare three primary interaction paradigms, including domain-specific agents with structured tool use, computer-use agents, and general-purpose coding agents, by evaluating eight representative agents across 15 benchmark tasks and measuring visualization quality, efficiency, robustness, and computational cost. We further analyze interaction modalities, including code scripts and model context protocol (MCP) or API calls for structured tool use, as well as command-line interfaces (CLI) and graphical user interfaces (GUI) for more general interaction, while additionally studying the effect of persistent memory in selected agents. The results reveal clear tradeoffs across paradigms and modalities. General-purpose coding agents achieve the highest task success rates but are computationally expensive, while domain-specific agents are more efficient and stable but less flexible. Computer-use agents perform well on individual steps but struggle with longer multi-step workflows, indicating that long-horizon planning is their primary limitation. Across both CLI- and GUI-based settings, persistent memory improves performance over repeated trials, although its benefits depend on the underlying interaction mode and the quality of feedback. These findings suggest that no single approach is sufficient, and future SciVis systems should combine structured tool use, interactive capabilities, and adaptive memory mechanisms to balance performance, robustness, and flexibility.
- Abstract(参考訳): 本稿では,様々な言語モデル (LLM) エージェントが科学的可視化 (SciVis) タスクでどのように機能するかを検討する。
15のベンチマークタスクにまたがる8つの代表エージェントを評価し、可視化品質、効率、堅牢性、計算コストを測定することで、構造化ツール使用のドメイン固有エージェント、コンピュータ利用エージェント、汎用コーディングエージェントを含む3つの主要な相互作用パラダイムを比較した。
さらに、コードスクリプトやモデルコンテキストプロトコル(MCP)、構造化ツール使用のためのAPI呼び出し、より一般的なインタラクションのためのコマンドラインインターフェース(CLI)やグラフィカルユーザインタフェース(GUI)など、インタラクションのモダリティを解析するとともに、選択されたエージェントにおける永続メモリの効果についても検討する。
結果は、パラダイムとモダリティにまたがる明確なトレードオフを明らかにします。
汎用符号化エージェントはタスクの成功率が最も高く、計算コストが高いが、ドメイン固有のエージェントはより効率的で安定だが柔軟性は低い。
コンピュータ利用エージェントは、個々のステップでうまく機能するが、長いマルチステップのワークフローに苦しむ。
CLIベースの設定とGUIベースの設定の両方で、永続メモリは、基礎となるインタラクションモードとフィードバックの品質に依存するが、繰り返し試行よりもパフォーマンスを改善する。
将来のSciVisシステムでは、構造化ツールの使用、インタラクティブ機能、適応メモリ機構を組み合わせて、パフォーマンス、堅牢性、柔軟性のバランスをとる必要がある。
関連論文リスト
- CarePilot: A Multi-Agent Framework for Long-Horizon Computer Task Automation in Healthcare [37.42599407869901]
マルチモーダルエージェントパイプラインは、複雑で現実的なタスクの効率的でアクセスしやすい自動化を可能にすることによって、人間とコンピュータのインタラクションを変革している。
近年の取り組みは、短期的、あるいは汎用的なアプリケーションに重点を置いており、特に医療において、ドメイン固有のシステムに対する長期的自動化は、ほとんど探索されていない。
本稿では,アクター批判パラダイムに基づくマルチエージェントフレームワークであるCarePilotを紹介する。
実験の結果,CarePilotは最先端のパフォーマンスを達成し,クローズドソースとオープンソースのマルチモーダルベースラインをそれぞれ約15.26%,3.38%向上した。
論文 参考訳(メタデータ) (2026-03-25T10:25:48Z) - El Agente Gráfico: Structured Execution Graphs for Scientific Agents [7.47895130442454]
タイプセーフな実行環境内に,大規模言語モデル(LLM)による意思決定を組み込んだ単一エージェントフレームワークであるEl Agente Grficoを紹介する。
我々のアプローチの中心は、科学概念の構造化された抽象化と、型付きPythonオブジェクトとして計算状態を表すオブジェクトグラフマッパーである。
大学レベルの量子化学タスクのスイートにまたがって,自動ベンチマークフレームワークを開発することにより,システムの評価を行う。
論文 参考訳(メタデータ) (2026-02-19T23:47:05Z) - Graph2Eval: Automatic Multimodal Task Generation for Agents via Knowledge Graphs [38.93261732451012]
マルチモーダル文書理解タスクとWebインタラクションタスクの両方を自動的に生成する知識グラフベースのフレームワークであるGraph2Evalを提案する。
Graph2Eval-Benchはドキュメントの理解とWebインタラクションのシナリオにまたがる1,319のタスクのキュレートされたデータセットです。
実験によると、Graph2Evalは、エージェントとモデルのパフォーマンスを区別するタスクを効率的に生成し、異なる設定間での推論、コラボレーション、Webインタラクションのギャップを明らかにする。
論文 参考訳(メタデータ) (2025-10-01T04:37:54Z) - Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling [83.78874399606379]
テスト時間スケーリングを備えたマルチエージェント協調フレームワークであるMACTを提案する。
4つの異なる小規模エージェントから構成され、明確に定義された役割と効果的なコラボレーションがある。
一般および数学的タスクの能力を犠牲にすることなく、より小さなパラメータスケールで優れた性能を示す。
論文 参考訳(メタデータ) (2025-08-05T12:52:09Z) - PersonaAgent: When Large Language Model Agents Meet Personalization at Test Time [87.99027488664282]
PersonaAgentは、汎用的なパーソナライゼーションタスクに対処するために設計されたフレームワークである。
パーソナライズされたメモリモジュールとパーソナライズされたアクションモジュールを統合する。
テストタイムのユーザ嗜好アライメント戦略は、リアルタイムのユーザの嗜好アライメントを保証する。
論文 参考訳(メタデータ) (2025-06-06T17:29:49Z) - ScreenLLM: Stateful Screen Schema for Efficient Action Understanding and Prediction [15.220300812671494]
先進的なUI理解とアクション予測に適したマルチモーダル大規模言語モデル(MLLM)のセットであるScreenLLMを紹介する。
我々の研究は、多様なソフトウェア環境におけるユーザインタラクションを強化するスケーラブルで堅牢でインテリジェントなGUIエージェントの基礎を築いた。
論文 参考訳(メタデータ) (2025-03-26T20:41:24Z) - Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining [67.87810796668981]
インフォメーション・インフォメーション・インフォメーション・クロッピング(ISC)と自己精製デュアルラーニング(SRDL)
Irisは850KのGUIアノテーションだけで、複数のベンチマークで最先端のパフォーマンスを実現している。
これらの改善は、WebとOSエージェントの両方の下流タスクで大幅に向上した。
論文 参考訳(メタデータ) (2024-12-13T18:40:10Z) - AppAgent v2: Advanced Agent for Flexible Mobile Interactions [57.98933460388985]
本研究は,モバイル機器向けの新しいLLMベースのマルチモーダルエージェントフレームワークを提案する。
我々のエージェントは、様々なアプリケーションにまたがる適応性を高めるフレキシブルなアクション空間を構築する。
本研究は,実世界のシナリオにおいて,フレームワークの優れた性能を実証し,その有効性を確認した。
論文 参考訳(メタデータ) (2024-08-05T06:31:39Z) - Multi-Agent Imitation Learning with Copulas [102.27052968901894]
マルチエージェント模倣学習は、観察と行動のマッピングを学習することで、デモからタスクを実行するために複数のエージェントを訓練することを目的としている。
本稿では,確率変数間の依存を捉える強力な統計ツールである copula を用いて,マルチエージェントシステムにおける相関関係と協調関係を明示的にモデル化する。
提案モデルでは,各エージェントの局所的行動パターンと,エージェント間の依存構造のみをフルにキャプチャするコプラ関数を別々に学習することができる。
論文 参考訳(メタデータ) (2021-07-10T03:49:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。