論文の概要: AVA: Towards Autonomous Visualization Agents through Visual
Perception-Driven Decision-Making
- arxiv url: http://arxiv.org/abs/2312.04494v1
- Date: Thu, 7 Dec 2023 18:13:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 13:43:19.634140
- Title: AVA: Towards Autonomous Visualization Agents through Visual
Perception-Driven Decision-Making
- Title(参考訳): AVA:視覚知覚駆動意思決定による自律可視化エージェントを目指して
- Authors: Shusen Liu, Haichao Miao, Zhimin Li, Matthew Olson, Valerio Pascucci,
Peer-Timo Bremer
- Abstract要約: 我々は,自然言語を用いてユーザ定義の可視化目標を解釈し,達成できる自律可視化エージェント(AVA)を開発した。
視覚的知覚の追加により、AVAは、微調整による可視化出力の知識や専門知識が欠けているかもしれないドメインエキスパートのための仮想視覚化アシスタントとして機能する。
本研究では,AVAが高レベルな可視化目標を達成する知的可視化システムを設計するための一般的なパラダイムであることを示す。
- 参考スコア(独自算出の注目度): 19.09644604789813
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With recent advances in multi-modal foundation models, the previously
text-only large language models (LLM) have evolved to incorporate visual input,
opening up unprecedented opportunities for various applications in
visualization. Our work explores the utilization of the visual perception
ability of multi-modal LLMs to develop Autonomous Visualization Agents (AVAs)
that can interpret and accomplish user-defined visualization objectives through
natural language. We propose the first framework for the design of AVAs and
present several usage scenarios intended to demonstrate the general
applicability of the proposed paradigm. The addition of visual perception
allows AVAs to act as the virtual visualization assistant for domain experts
who may lack the knowledge or expertise in fine-tuning visualization outputs.
Our preliminary exploration and proof-of-concept agents suggest that this
approach can be widely applicable whenever the choices of appropriate
visualization parameters require the interpretation of previous visual output.
Feedback from unstructured interviews with experts in AI research, medical
visualization, and radiology has been incorporated, highlighting the
practicality and potential of AVAs. Our study indicates that AVAs represent a
general paradigm for designing intelligent visualization systems that can
achieve high-level visualization goals, which pave the way for developing
expert-level visualization agents in the future.
- Abstract(参考訳): 近年のマルチモーダル基礎モデルの進歩により、以前はテキストのみの大規模言語モデル (LLM) が視覚入力に進化し、可視化における様々なアプリケーションに前例のない機会が開かれた。
本研究では,マルチモーダルLLMの視覚知覚能力を活用し,自然言語を用いてユーザ定義の可視化目標を解釈・達成できる自律可視化エージェント(AVA)を開発した。
本稿では,AVAの設計のための最初のフレームワークを提案し,提案パラダイムの汎用性を実証するためのいくつかの利用シナリオを提案する。
視覚的知覚の追加により、AVAは、微調整による可視化出力の知識や専門知識が欠けているかもしれないドメインエキスパートのための仮想視覚化アシスタントとして機能する。
我々の予備調査と概念実証エージェントは、適切な可視化パラメータの選択が以前の視覚出力の解釈を必要とする場合、このアプローチが広く適用可能であることを示唆する。
AI研究、医用可視化、放射線学の専門家との非構造化インタビューからのフィードバックが取り入れられ、AVAの実用性と可能性を強調している。
我々の研究は、AVAが高度な可視化目標を達成する知的可視化システムを設計するための一般的なパラダイムであり、将来、専門家レベルの可視化エージェントを開発するための道を開くことを示唆している。
関連論文リスト
- Exploring the Effectiveness of Object-Centric Representations in Visual Question Answering: Comparative Insights with Foundation Models [24.579822095003685]
下流視覚質問応答(VQA)における表現学習に関する実証的研究を行った。
我々はOCモデルと代替アプローチの利点とトレードオフを徹底的に検討する。
論文 参考訳(メタデータ) (2024-07-22T12:26:08Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - InsightSee: Advancing Multi-agent Vision-Language Models for Enhanced Visual Understanding [12.082379948480257]
本稿では,複雑な視覚理解シナリオを扱う上で,視覚言語モデルの能力を高めるためのマルチエージェントフレームワークであるInsightSeeを提案する。
このフレームワークは、視覚情報解釈のプロセスを洗練するために統合される記述エージェントと、2つの推論エージェントと決定エージェントとを含む。
このフレームワークは、9つのベンチマークテストのうち6つで最先端のアルゴリズムよりも優れており、マルチモーダル理解が大幅に進歩している。
論文 参考訳(メタデータ) (2024-05-31T13:56:55Z) - Semantic-Based Active Perception for Humanoid Visual Tasks with Foveal Sensors [49.99728312519117]
この研究の目的は、最近の意味に基づくアクティブな知覚モデルが、人間が定期的に行う視覚的なタスクをいかに正確に達成できるかを確立することである。
このモデルは、現在のオブジェクト検出器が多数のオブジェクトクラスをローカライズし、分類し、複数の固定にまたがるシーンのセマンティック記述を更新する能力を利用する。
シーン探索の課題では、セマンティック・ベースの手法は従来のサリエンシ・ベース・モデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-04-16T18:15:57Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Question Aware Vision Transformer for Multimodal Reasoning [14.188369270753347]
マルチモーダル推論のための質問認識型視覚変換器QA-ViTを提案する。
視覚エンコーダに直接質問認識を埋め込む。
この統合により、仮定された問題に関連性のある画像の側面に焦点を当てた動的視覚的特徴が得られる。
論文 参考訳(メタデータ) (2024-02-08T08:03:39Z) - Voila-A: Aligning Vision-Language Models with User's Gaze Attention [56.755993500556734]
視覚言語モデル(VLM)を導くために,人間の注意の代用として視線情報を導入する。
本稿では,視線アライメントのための新しいアプローチであるVoila-Aを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:34:01Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - Perceive, Ground, Reason, and Act: A Benchmark for General-purpose
Visual Representation [26.039045505150526]
現在のコンピュータビジョンモデルは、人間の視覚システムとは異なり、汎用的な視覚的理解がまだ得られていない。
視覚認知能力の全スペクトルを網羅する総合的視覚理解評価(General Visual Understanding Evaluation)を提案する。
論文 参考訳(メタデータ) (2022-11-28T15:06:07Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - Modeling Explicit Concerning States for Reinforcement Learning in Visual
Dialogue [43.42833961578857]
本稿では,各ラウンドにおける視覚内容と視覚対話を通しての関心事を表すために,ECS(Explicit Concerning States)を提案する。
ECSはマルチモーダル情報からモデル化され、明示的に表現される。
ECSに基づいて2つの直感的かつ解釈可能な報酬を定式化し、視覚対話エージェントが多様かつ情報的な視覚情報について会話することを奨励する。
論文 参考訳(メタデータ) (2021-07-12T08:15:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。