論文の概要: ParaView-MCP: An Autonomous Visualization Agent with Direct Tool Use
- arxiv url: http://arxiv.org/abs/2505.07064v1
- Date: Sun, 11 May 2025 17:30:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.191071
- Title: ParaView-MCP: An Autonomous Visualization Agent with Direct Tool Use
- Title(参考訳): ParaView-MCP: ツールを直接使用した自律可視化エージェント
- Authors: Shusen Liu, Haichao Miao, Peer-Timo Bremer,
- Abstract要約: ParaView-MCPは、現代のマルチモーダル大言語モデル(MLLM)とParaViewを統合する自律エージェントである。
MLLMの最先端の推論、コマンド実行、ビジョン機能を活用することで、ParaView-MCPは、自然言語や視覚入力を通じて、ParaViewと対話することが可能になる。
- 参考スコア(独自算出の注目度): 11.678209799690345
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While powerful and well-established, tools like ParaView present a steep learning curve that discourages many potential users. This work introduces ParaView-MCP, an autonomous agent that integrates modern multimodal large language models (MLLMs) with ParaView to not only lower the barrier to entry but also augment ParaView with intelligent decision support. By leveraging the state-of-the-art reasoning, command execution, and vision capabilities of MLLMs, ParaView-MCP enables users to interact with ParaView through natural language and visual inputs. Specifically, our system adopted the Model Context Protocol (MCP) - a standardized interface for model-application communication - that facilitates direct interaction between MLLMs with ParaView's Python API to allow seamless information exchange between the user, the language model, and the visualization tool itself. Furthermore, by implementing a visual feedback mechanism that allows the agent to observe the viewport, we unlock a range of new capabilities, including recreating visualizations from examples, closed-loop visualization parameter updates based on user-defined goals, and even cross-application collaboration involving multiple tools. Broadly, we believe such an agent-driven visualization paradigm can profoundly change the way we interact with visualization tools. We expect a significant uptake in the development of such visualization tools, in both visualization research and industry.
- Abstract(参考訳): ParaViewのような強力で確立されたツールには、多くの潜在的なユーザを妨げる急勾配の学習曲線がある。
この作業では、モダンなマルチモーダルな大規模言語モデル(MLLM)をParaViewに統合する自律エージェントであるParaView-MCPを導入し、参入障壁を低くするだけでなく、インテリジェントな意思決定サポートによってParaViewを増強する。
MLLMの最先端の推論、コマンド実行、ビジョン機能を活用することで、ParaView-MCPは、自然言語や視覚入力を通じて、ParaViewと対話することが可能になる。
具体的には,MLLMをParaViewのPython APIと直接やりとりすることで,ユーザ,言語モデル,可視化ツール自体間のシームレスな情報交換を可能にする,モデル・コンテキスト・プロトコル(MCP)を採用した。
さらに、エージェントがビューポートを観察できる視覚フィードバック機構を実装することで、サンプルからの視覚化の再現、ユーザ定義の目標に基づいたクローズドループ可視化パラメータの更新、さらには複数のツールを含むアプリケーション間コラボレーションなど、さまざまな新機能を解放する。
広くは、エージェント駆動の可視化パラダイムは、可視化ツールとのインタラクション方法を大きく変えることができると信じています。
我々は、可視化研究と産業の両方において、このような可視化ツールの開発において大きな貢献を期待している。
関連論文リスト
- Ponder & Press: Advancing Visual GUI Agent towards General Computer Control [13.39115823642937]
Ponder & Press(ポンダー・アンド・プレス)は、視覚的入力のみを使用する汎用コンピュータ制御のための分断型フレームワークである。
我々のエージェントは、幅広い応用に適用可能な、多目的で人間のような相互作用パラダイムを提供する。
論文 参考訳(メタデータ) (2024-12-02T08:35:31Z) - MiniDrive: More Efficient Vision-Language Models with Multi-Level 2D Features as Text Tokens for Autonomous Driving [10.74799483937468]
視覚言語モデル(VLM)は、自律運転における汎用的なエンドツーエンドモデルとして機能する。
既存のほとんどの手法は計算コストのかかるビジュアルエンコーダと大言語モデル(LLM)に依存している。
提案するFE-MoE(Feature Engineering Mixture of Experts)モジュールとDI-Adapter(Dynamic Instruction Adapter)を組み込んだMiniDriveという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-11T13:43:01Z) - VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks [89.24440488456405]
VisionLLM v2は、エンドツーエンドの汎用マルチモーダル大モデル(MLLM)である。
単一のフレームワーク内で視覚的知覚、理解、生成を統一する。
論文 参考訳(メタデータ) (2024-06-12T16:44:50Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々はDraw-and-Understandフレームワークを提案し、視覚的プロンプト理解機能をMLLM(Multimodal Large Language Models)に統合する方法を探る。
視覚的なプロンプトにより、ユーザーはマルチモーダルなインストラクションを通じて対話することができ、モデルの対話性ときめ細かなイメージ理解を高めることができる。
本稿では,様々な学習済みMLLMに適応し,様々な視覚的プロンプトを認識可能な汎用アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation [61.68049335444254]
MLLM(Multimodal large language model)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。
包括的環境認識(CEP)と条件付き行動予測(CAP)の2つの新しいアプローチを備えた包括的認知型LLMエージェントCoCo-Agentを提案する。
AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-19T08:29:03Z) - MM-REACT: Prompting ChatGPT for Multimodal Reasoning and Action [96.33509740612486]
MM-REACTは、マルチモーダル推論とアクションを達成するために、ChatGPTとビジョンエキスパートのプールを統合するシステムパラダイムである。
MM-REACTのプロンプト設計により、言語モデルはマルチモーダル情報を受け入れ、関連づけ、処理することができる。
論文 参考訳(メタデータ) (2023-03-20T18:31:47Z) - Building Goal-Oriented Dialogue Systems with Situated Visual Context [12.014793558784955]
スクリーン付きバーチャルアシスタントの急増に伴い、次世代のエージェントはスクリーンコンテキストを理解する必要がある。
本稿では,対話エージェントの次の行動とその議論を対話と視覚の両方で協調的に条件付けする,新しい多モーダル対話フレームワークを提案する。
我々のモデルは、色や形状などの視覚的特徴と、視覚的実体に関連する価格や星のレーティングといったメタデータに基づく特徴を認識できる。
論文 参考訳(メタデータ) (2021-11-22T23:30:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。