論文の概要: VizGenie: Toward Self-Refining, Domain-Aware Workflows for Next-Generation Scientific Visualization
- arxiv url: http://arxiv.org/abs/2507.21124v1
- Date: Fri, 18 Jul 2025 23:54:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-03 20:19:02.901698
- Title: VizGenie: Toward Self-Refining, Domain-Aware Workflows for Next-Generation Scientific Visualization
- Title(参考訳): VizGenie: 次世代の科学的可視化のための自己修復型ドメイン対応ワークフローを目指して
- Authors: Ayan Biswas, Terece L. Turton, Nishath Rajiv Ranasinghe, Shawn Jones, Bradley Love, William Jones, Aric Hagberg, Han-Wei Shen, Nathan DeBardeleben, Earl Lawrence,
- Abstract要約: VizGenieは,大規模言語モデル(LLM)による科学的可視化を促進するフレームワーク
VizGenieの特徴は直感的な自然言語インタフェースで、ユーザーは高レベルの機能ベースのクエリを発行できる。
- 参考スコア(独自算出の注目度): 12.826592849136215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present VizGenie, a self-improving, agentic framework that advances scientific visualization through large language model (LLM) by orchestrating of a collection of domain-specific and dynamically generated modules. Users initially access core functionalities--such as threshold-based filtering, slice extraction, and statistical analysis--through pre-existing tools. For tasks beyond this baseline, VizGenie autonomously employs LLMs to generate new visualization scripts (e.g., VTK Python code), expanding its capabilities on-demand. Each generated script undergoes automated backend validation and is seamlessly integrated upon successful testing, continuously enhancing the system's adaptability and robustness. A distinctive feature of VizGenie is its intuitive natural language interface, allowing users to issue high-level feature-based queries (e.g., ``visualize the skull"). The system leverages image-based analysis and visual question answering (VQA) via fine-tuned vision models to interpret these queries precisely, bridging domain expertise and technical implementation. Additionally, users can interactively query generated visualizations through VQA, facilitating deeper exploration. Reliability and reproducibility are further strengthened by Retrieval-Augmented Generation (RAG), providing context-driven responses while maintaining comprehensive provenance records. Evaluations on complex volumetric datasets demonstrate significant reductions in cognitive overhead for iterative visualization tasks. By integrating curated domain-specific tools with LLM-driven flexibility, VizGenie not only accelerates insight generation but also establishes a sustainable, continuously evolving visualization practice. The resulting platform dynamically learns from user interactions, consistently enhancing support for feature-centric exploration and reproducible research in scientific visualization.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)による科学的可視化を,ドメイン固有モジュールと動的生成モジュールの集合のオーケストレーションによって促進する,自己改善型エージェントフレームワークであるVizGenieを紹介する。
ユーザは最初に、しきい値ベースのフィルタリング、スライス抽出、統計分析など、既存のツールを通じてコア機能にアクセスする。
このベースラインを越えたタスクに対しては、VizGenieはLLMを自律的に使用して、新たな視覚化スクリプト(VTK Pythonコードなど)を生成し、オンデマンドで機能を拡張する。
各生成されたスクリプトは自動バックエンド検証を実行し、テスト成功時にシームレスに統合され、システムの適応性と堅牢性を継続的に強化する。
VizGenieの特徴は直感的な自然言語インタフェースで、ユーザーは高レベルの特徴ベースのクエリを発行できる(例: `visualize the skull")。
このシステムは、細調整された視覚モデルを用いて画像解析と視覚質問応答(VQA)を利用して、これらのクエリを正確に解釈し、ドメインの専門知識と技術的実装をブリッジする。
さらに、VQAを通じて生成された視覚化をインタラクティブにクエリすることで、より深い探索が可能になる。
Retrieval-Augmented Generation (RAG)により、信頼性と再現性がさらに強化され、包括的な前兆記録を維持しながらコンテキスト駆動の応答が提供される。
複雑なボリュームデータセットの評価は、反復可視化タスクの認知的オーバーヘッドを著しく低減することを示している。
キュレートされたドメイン固有ツールとLLM駆動の柔軟性を統合することで、VizGenieは洞察生成を加速するだけでなく、持続的で継続的な可視化プラクティスを確立する。
結果として得られるプラットフォームは、ユーザインタラクションから動的に学習し、科学的視覚化における特徴中心探索と再現可能な研究のサポートを一貫して強化する。
関連論文リスト
- Retrieval Augmented Generation and Understanding in Vision: A Survey and New Outlook [85.43403500874889]
Retrieval-augmented Generation (RAG) は人工知能(AI)において重要な技術である。
具体化されたAIのためのRAGの最近の進歩は、特に計画、タスク実行、マルチモーダル知覚、インタラクション、特殊ドメインの応用に焦点を当てている。
論文 参考訳(メタデータ) (2025-03-23T10:33:28Z) - InterChat: Enhancing Generative Visual Analytics using Multimodal Interactions [22.007942964950217]
視覚要素の直接操作と自然言語入力を組み合わせた生成的視覚分析システムであるInterChatを開発した。
この統合により、正確なインテント通信が可能になり、プログレッシブで視覚的に駆動された探索データ分析をサポートする。
論文 参考訳(メタデータ) (2025-03-06T05:35:19Z) - Exploring the Potential of Large Language Models as Predictors in Dynamic Text-Attributed Graphs [23.655368505970443]
我々は,動的グラフの予測タスクに大規模言語モデル (LLM) を考案した。
協調LLMを利用したマルチエージェントシステムであるGraphAgent-Dynamic (GAD) フレームワークを提案する。
GADはグローバルおよびローカルの要約エージェントを組み込んでドメイン固有の知識を生成し、ドメイン間の転送可能性を高める。
論文 参考訳(メタデータ) (2025-03-05T08:28:11Z) - Vision-Driven Prompt Optimization for Large Language Models in Multimodal Generative Tasks [0.0]
視覚駆動型プロンプト最適化(VDPO)は、高忠実度画像合成を導く視覚入力からテキストプロンプトを生成する。
VDPOは既存の手法を一貫して上回り、FID、LPIPS、BLEU/CIDErスコアを大幅に改善した。
人間の評価は、視覚的に魅力的でセマンティックにコヒーレントな出力を生成する上で、VDPOの実用的優位性をさらに検証する。
論文 参考訳(メタデータ) (2025-01-05T13:01:47Z) - Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。
この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。
テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文 参考訳(メタデータ) (2024-12-26T05:41:31Z) - Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining [67.87810796668981]
インフォメーション・インフォメーション・インフォメーション・クロッピング(ISC)と自己精製デュアルラーニング(SRDL)
Irisは850KのGUIアノテーションだけで、複数のベンチマークで最先端のパフォーマンスを実現している。
これらの改善は、WebとOSエージェントの両方の下流タスクで大幅に向上した。
論文 参考訳(メタデータ) (2024-12-13T18:40:10Z) - Integrating Object Detection Modality into Visual Language Model for Enhanced Autonomous Driving Agent [8.212818176634116]
我々は,YOLOSに基づく検出ネットワークをCLIP認識ネットワークと組み合わせることで,Llama-Adapterアーキテクチャを拡張した。
本手法では, 総合的な環境認識に欠かせないマルチビュー処理を改善するために, カメラIDセパレータを導入している。
論文 参考訳(メタデータ) (2024-11-08T15:50:30Z) - VipAct: Visual-Perception Enhancement via Specialized VLM Agent Collaboration and Tool-use [74.39058448757645]
視覚言語モデル(VLM)を強化するエージェントフレームワークであるVipActを提案する。
VipActは、タスク要求の分析、計画、調整を管理するオーケストレータエージェントと、特定のタスクを処理する専門エージェントで構成される。
様々な視覚認知タスクを特徴とするベンチマーク上でのVipActの評価を行い,実験結果から大幅な性能向上が得られた。
論文 参考訳(メタデータ) (2024-10-21T18:10:26Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - X-Former: Unifying Contrastive and Reconstruction Learning for MLLMs [49.30255148577368]
X-FormerはCLとMIMの相補的な強度を利用するために設計された軽量トランスフォーマーモジュールである。
X-Formerは、2つの凍結した視覚エンコーダから視覚言語表現学習とマルチモーダル・マルチモーダル生成学習をブートストラップする。
さらに、凍結したLLMから視覚から言語への生成学習をブートストラップし、X-Formerの視覚的特徴をLLMで解釈できるようにする。
論文 参考訳(メタデータ) (2024-07-18T18:39:54Z) - Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement [102.22911097049953]
大規模視覚言語モデル(LVLM)は、視覚的質問応答および推論タスクにおいて印象的な結果を得た。
既存の手法は、しばしば外部モデルやデータに依存し、制御不能で不安定なアライメント結果をもたらす。
本稿では,外部依存を伴わない視覚的・言語的モダリティアライメントを向上させる自己改善フレームワークSIMAを提案する。
論文 参考訳(メタデータ) (2024-05-24T23:09:27Z) - DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) [73.10899129264375]
本稿では,LLMによる動的シーン理解のための包括的かつ概念的にエレガントなシステムであるドラモンGPTについて検討する。
質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。
我々は,DoraemonGPTの有効性を,3つのベンチマークといくつかのアプリ内シナリオで広範囲に評価した。
論文 参考訳(メタデータ) (2024-01-16T14:33:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。