論文の概要: AVA: Towards Autonomous Visualization Agents through Visual
Perception-Driven Decision-Making
- arxiv url: http://arxiv.org/abs/2312.04494v1
- Date: Thu, 7 Dec 2023 18:13:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 13:43:19.634140
- Title: AVA: Towards Autonomous Visualization Agents through Visual
Perception-Driven Decision-Making
- Title(参考訳): AVA:視覚知覚駆動意思決定による自律可視化エージェントを目指して
- Authors: Shusen Liu, Haichao Miao, Zhimin Li, Matthew Olson, Valerio Pascucci,
Peer-Timo Bremer
- Abstract要約: 我々は,自然言語を用いてユーザ定義の可視化目標を解釈し,達成できる自律可視化エージェント(AVA)を開発した。
視覚的知覚の追加により、AVAは、微調整による可視化出力の知識や専門知識が欠けているかもしれないドメインエキスパートのための仮想視覚化アシスタントとして機能する。
本研究では,AVAが高レベルな可視化目標を達成する知的可視化システムを設計するための一般的なパラダイムであることを示す。
- 参考スコア(独自算出の注目度): 19.09644604789813
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With recent advances in multi-modal foundation models, the previously
text-only large language models (LLM) have evolved to incorporate visual input,
opening up unprecedented opportunities for various applications in
visualization. Our work explores the utilization of the visual perception
ability of multi-modal LLMs to develop Autonomous Visualization Agents (AVAs)
that can interpret and accomplish user-defined visualization objectives through
natural language. We propose the first framework for the design of AVAs and
present several usage scenarios intended to demonstrate the general
applicability of the proposed paradigm. The addition of visual perception
allows AVAs to act as the virtual visualization assistant for domain experts
who may lack the knowledge or expertise in fine-tuning visualization outputs.
Our preliminary exploration and proof-of-concept agents suggest that this
approach can be widely applicable whenever the choices of appropriate
visualization parameters require the interpretation of previous visual output.
Feedback from unstructured interviews with experts in AI research, medical
visualization, and radiology has been incorporated, highlighting the
practicality and potential of AVAs. Our study indicates that AVAs represent a
general paradigm for designing intelligent visualization systems that can
achieve high-level visualization goals, which pave the way for developing
expert-level visualization agents in the future.
- Abstract(参考訳): 近年のマルチモーダル基礎モデルの進歩により、以前はテキストのみの大規模言語モデル (LLM) が視覚入力に進化し、可視化における様々なアプリケーションに前例のない機会が開かれた。
本研究では,マルチモーダルLLMの視覚知覚能力を活用し,自然言語を用いてユーザ定義の可視化目標を解釈・達成できる自律可視化エージェント(AVA)を開発した。
本稿では,AVAの設計のための最初のフレームワークを提案し,提案パラダイムの汎用性を実証するためのいくつかの利用シナリオを提案する。
視覚的知覚の追加により、AVAは、微調整による可視化出力の知識や専門知識が欠けているかもしれないドメインエキスパートのための仮想視覚化アシスタントとして機能する。
我々の予備調査と概念実証エージェントは、適切な可視化パラメータの選択が以前の視覚出力の解釈を必要とする場合、このアプローチが広く適用可能であることを示唆する。
AI研究、医用可視化、放射線学の専門家との非構造化インタビューからのフィードバックが取り入れられ、AVAの実用性と可能性を強調している。
我々の研究は、AVAが高度な可視化目標を達成する知的可視化システムを設計するための一般的なパラダイムであり、将来、専門家レベルの可視化エージェントを開発するための道を開くことを示唆している。
関連論文リスト
- Guiding Medical Vision-Language Models with Explicit Visual Prompts: Framework Design and Comprehensive Exploration of Prompt Variations [15.052986179046076]
医用エンティティ抽出,視覚的プロンプト生成,およびデータセット適応を統合した,視覚的プロンプトによる微調整のための先駆的フレームワークであるMedVPを紹介する。
我々は、複数の医療用VQAデータセットにおいて、最新の最先端の大規模モデルを上回る結果を得た。
論文 参考訳(メタデータ) (2025-01-04T21:23:36Z) - VipAct: Visual-Perception Enhancement via Specialized VLM Agent Collaboration and Tool-use [74.39058448757645]
視覚言語モデル(VLM)を強化するエージェントフレームワークであるVipActを提案する。
VipActは、タスク要求の分析、計画、調整を管理するオーケストレータエージェントと、特定のタスクを処理する専門エージェントで構成される。
様々な視覚認知タスクを特徴とするベンチマーク上でのVipActの評価を行い,実験結果から大幅な性能向上が得られた。
論文 参考訳(メタデータ) (2024-10-21T18:10:26Z) - Robust Audiovisual Speech Recognition Models with Mixture-of-Experts [67.75334989582709]
EVAを導入し、オーディオVisual ASRのミックス・オブ・エクササイズを利用して、Wildのビデオに対してロバストな音声認識を行う。
まず、視覚情報を視覚トークンシーケンスにエンコードし、それらを軽量な投影により音声空間にマッピングする。
実験により,本モデルが3つのベンチマークで最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2024-09-19T00:08:28Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - InsightSee: Advancing Multi-agent Vision-Language Models for Enhanced Visual Understanding [12.082379948480257]
本稿では,複雑な視覚理解シナリオを扱う上で,視覚言語モデルの能力を高めるためのマルチエージェントフレームワークであるInsightSeeを提案する。
このフレームワークは、視覚情報解釈のプロセスを洗練するために統合される記述エージェントと、2つの推論エージェントと決定エージェントとを含む。
このフレームワークは、9つのベンチマークテストのうち6つで最先端のアルゴリズムよりも優れており、マルチモーダル理解が大幅に進歩している。
論文 参考訳(メタデータ) (2024-05-31T13:56:55Z) - Question Aware Vision Transformer for Multimodal Reasoning [14.188369270753347]
マルチモーダル推論のための質問認識型視覚変換器QA-ViTを提案する。
視覚エンコーダに直接質問認識を埋め込む。
この統合により、仮定された問題に関連性のある画像の側面に焦点を当てた動的視覚的特徴が得られる。
論文 参考訳(メタデータ) (2024-02-08T08:03:39Z) - Voila-A: Aligning Vision-Language Models with User's Gaze Attention [56.755993500556734]
視覚言語モデル(VLM)を導くために,人間の注意の代用として視線情報を導入する。
本稿では,視線アライメントのための新しいアプローチであるVoila-Aを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:34:01Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - Perceive, Ground, Reason, and Act: A Benchmark for General-purpose
Visual Representation [26.039045505150526]
現在のコンピュータビジョンモデルは、人間の視覚システムとは異なり、汎用的な視覚的理解がまだ得られていない。
視覚認知能力の全スペクトルを網羅する総合的視覚理解評価(General Visual Understanding Evaluation)を提案する。
論文 参考訳(メタデータ) (2022-11-28T15:06:07Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。