Fugu-MT 論文翻訳(概要): AVA: Towards Autonomous Visualization Agents through Visual Perception-Driven Decision-Making

論文の概要: AVA: Towards Autonomous Visualization Agents through Visual Perception-Driven Decision-Making

arxiv url: http://arxiv.org/abs/2312.04494v1
Date: Thu, 7 Dec 2023 18:13:42 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-08 13:43:19.634140
Title: AVA: Towards Autonomous Visualization Agents through Visual Perception-Driven Decision-Making
Title（参考訳）: AVA:視覚知覚駆動意思決定による自律可視化エージェントを目指して
Authors: Shusen Liu, Haichao Miao, Zhimin Li, Matthew Olson, Valerio Pascucci, Peer-Timo Bremer
Abstract要約: 我々は,自然言語を用いてユーザ定義の可視化目標を解釈し,達成できる自律可視化エージェント(AVA)を開発した。視覚的知覚の追加により、AVAは、微調整による可視化出力の知識や専門知識が欠けているかもしれないドメインエキスパートのための仮想視覚化アシスタントとして機能する。本研究では,AVAが高レベルな可視化目標を達成する知的可視化システムを設計するための一般的なパラダイムであることを示す。
参考スコア（独自算出の注目度）: 19.09644604789813
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With recent advances in multi-modal foundation models, the previously text-only large language models (LLM) have evolved to incorporate visual input, opening up unprecedented opportunities for various applications in visualization. Our work explores the utilization of the visual perception ability of multi-modal LLMs to develop Autonomous Visualization Agents (AVAs) that can interpret and accomplish user-defined visualization objectives through natural language. We propose the first framework for the design of AVAs and present several usage scenarios intended to demonstrate the general applicability of the proposed paradigm. The addition of visual perception allows AVAs to act as the virtual visualization assistant for domain experts who may lack the knowledge or expertise in fine-tuning visualization outputs. Our preliminary exploration and proof-of-concept agents suggest that this approach can be widely applicable whenever the choices of appropriate visualization parameters require the interpretation of previous visual output. Feedback from unstructured interviews with experts in AI research, medical visualization, and radiology has been incorporated, highlighting the practicality and potential of AVAs. Our study indicates that AVAs represent a general paradigm for designing intelligent visualization systems that can achieve high-level visualization goals, which pave the way for developing expert-level visualization agents in the future.
Abstract（参考訳）: 近年のマルチモーダル基礎モデルの進歩により、以前はテキストのみの大規模言語モデル (LLM) が視覚入力に進化し、可視化における様々なアプリケーションに前例のない機会が開かれた。本研究では,マルチモーダルLLMの視覚知覚能力を活用し,自然言語を用いてユーザ定義の可視化目標を解釈・達成できる自律可視化エージェント(AVA)を開発した。本稿では,AVAの設計のための最初のフレームワークを提案し,提案パラダイムの汎用性を実証するためのいくつかの利用シナリオを提案する。視覚的知覚の追加により、AVAは、微調整による可視化出力の知識や専門知識が欠けているかもしれないドメインエキスパートのための仮想視覚化アシスタントとして機能する。我々の予備調査と概念実証エージェントは、適切な可視化パラメータの選択が以前の視覚出力の解釈を必要とする場合、このアプローチが広く適用可能であることを示唆する。 AI研究、医用可視化、放射線学の専門家との非構造化インタビューからのフィードバックが取り入れられ、AVAの実用性と可能性を強調している。我々の研究は、AVAが高度な可視化目標を達成する知的可視化システムを設計するための一般的なパラダイムであり、将来、専門家レベルの可視化エージェントを開発するための道を開くことを示唆している。

関連論文リスト

Exploring Multimodal Prompt for Visualization Authoring with Large Language Models [12.43647167483504]
可視化オーサリングの文脈において,大言語モデル(LLM)が不明瞭あるいは不完全なテキストプロンプトをどのように解釈するかを検討する。テキストプロンプトに補完的な入力モダリティとして視覚的プロンプトを導入し,ユーザの意図を明らかにする。テキストやスケッチ,直接操作など,マルチモーダルなプロンプトを使って視覚化を簡単に作成できるVisPilotを設計する。
論文参考訳（メタデータ） (2025-04-18T14:00:55Z)
Retrieval Augmented Generation and Understanding in Vision: A Survey and New Outlook [85.43403500874889]
Retrieval-augmented Generation (RAG) は人工知能(AI)において重要な技術である。具体化されたAIのためのRAGの最近の進歩は、特に計画、タスク実行、マルチモーダル知覚、インタラクション、特殊ドメインの応用に焦点を当てている。
論文参考訳（メタデータ） (2025-03-23T10:33:28Z)
Exploring Interpretability for Visual Prompt Tuning with Hierarchical Concepts [39.92376420375139]
視覚的プロンプトの解釈可能性を検討するために,最初のフレームワークであるInterpretable Visual Prompt Tuningを提案する。視覚的プロンプトは、カテゴリーに依存しないプロトタイプのセットとして表される、人間の理解可能なセマンティックな概念と関連付けられている。 IVPTはこれらの領域の特徴を集約して解釈可能なプロンプトを生成する。
論文参考訳（メタデータ） (2025-03-08T06:12:50Z)
VipAct: Visual-Perception Enhancement via Specialized VLM Agent Collaboration and Tool-use [74.39058448757645]
視覚言語モデル(VLM)を強化するエージェントフレームワークであるVipActを提案する。 VipActは、タスク要求の分析、計画、調整を管理するオーケストレータエージェントと、特定のタスクを処理する専門エージェントで構成される。様々な視覚認知タスクを特徴とするベンチマーク上でのVipActの評価を行い,実験結果から大幅な性能向上が得られた。
論文参考訳（メタデータ） (2024-10-21T18:10:26Z)
Robust Audiovisual Speech Recognition Models with Mixture-of-Experts [67.75334989582709]
EVAを導入し、オーディオVisual ASRのミックス・オブ・エクササイズを利用して、Wildのビデオに対してロバストな音声認識を行う。まず、視覚情報を視覚トークンシーケンスにエンコードし、それらを軽量な投影により音声空間にマッピングする。実験により,本モデルが3つのベンチマークで最先端の結果が得られることが示された。
論文参考訳（メタデータ） (2024-09-19T00:08:28Z)
Exploring the Effectiveness of Object-Centric Representations in Visual Question Answering: Comparative Insights with Foundation Models [24.579822095003685]
下流視覚質問応答(VQA)における表現学習に関する実証的研究を行った。我々はOCモデルと代替アプローチの利点とトレードオフを徹底的に検討する。
論文参考訳（メタデータ） (2024-07-22T12:26:08Z)
Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文参考訳（メタデータ） (2024-06-24T17:59:42Z)
InsightSee: Advancing Multi-agent Vision-Language Models for Enhanced Visual Understanding [12.082379948480257]
本稿では,複雑な視覚理解シナリオを扱う上で,視覚言語モデルの能力を高めるためのマルチエージェントフレームワークであるInsightSeeを提案する。このフレームワークは、視覚情報解釈のプロセスを洗練するために統合される記述エージェントと、2つの推論エージェントと決定エージェントとを含む。このフレームワークは、9つのベンチマークテストのうち6つで最先端のアルゴリズムよりも優れており、マルチモーダル理解が大幅に進歩している。
論文参考訳（メタデータ） (2024-05-31T13:56:55Z)
Question Aware Vision Transformer for Multimodal Reasoning [14.188369270753347]
マルチモーダル推論のための質問認識型視覚変換器QA-ViTを提案する。視覚エンコーダに直接質問認識を埋め込む。この統合により、仮定された問題に関連性のある画像の側面に焦点を当てた動的視覚的特徴が得られる。
論文参考訳（メタデータ） (2024-02-08T08:03:39Z)
Voila-A: Aligning Vision-Language Models with User's Gaze Attention [56.755993500556734]
視覚言語モデル(VLM)を導くために,人間の注意の代用として視線情報を導入する。本稿では,視線アライメントのための新しいアプローチであるVoila-Aを提案する。
論文参考訳（メタデータ） (2023-12-22T17:34:01Z)
Localization vs. Semantics: Visual Representations in Unimodal and Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文参考訳（メタデータ） (2022-12-01T05:00:18Z)
Perceive, Ground, Reason, and Act: A Benchmark for General-purpose Visual Representation [26.039045505150526]
現在のコンピュータビジョンモデルは、人間の視覚システムとは異なり、汎用的な視覚的理解がまだ得られていない。視覚認知能力の全スペクトルを網羅する総合的視覚理解評価(General Visual Understanding Evaluation)を提案する。
論文参考訳（メタデータ） (2022-11-28T15:06:07Z)
SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。 SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。 13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文参考訳（メタデータ） (2022-11-28T14:58:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。