Fugu-MT 論文翻訳(概要): VisionGPT: Vision-Language Understanding Agent Using Generalized Multimodal Framework

論文の概要: VisionGPT: Vision-Language Understanding Agent Using Generalized Multimodal Framework

arxiv url: http://arxiv.org/abs/2403.09027v1
Date: Thu, 14 Mar 2024 01:39:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-15 22:07:16.846286
Title: VisionGPT: Vision-Language Understanding Agent Using Generalized Multimodal Framework
Title（参考訳）: VisionGPT:汎用マルチモーダルフレームワークを用いた視覚言語理解エージェント
Authors: Chris Kelly, Luhui Hu, Bang Yang, Yu Tian, Deshun Yang, Cindy Yang, Zaoshan Huang, Zihao Li, Jiayin Hu, Yuexian Zou,
Abstract要約: 我々は、最新技術基盤モデルの統合と自動化を行うためにVisionGPTを導入する。 VisionGPTは一般化されたマルチモーダルフレームワーク上に構築されており、3つの重要な特徴を区別している。本稿では,ビジョンGPTのアーキテクチャと能力について概説し,コンピュータビジョンの分野に革命をもたらす可能性を示す。
参考スコア（独自算出の注目度）: 47.58359136198136
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: With the emergence of large language models (LLMs) and vision foundation models, how to combine the intelligence and capacity of these open-sourced or API-available models to achieve open-world visual perception remains an open question. In this paper, we introduce VisionGPT to consolidate and automate the integration of state-of-the-art foundation models, thereby facilitating vision-language understanding and the development of vision-oriented AI. VisionGPT builds upon a generalized multimodal framework that distinguishes itself through three key features: (1) utilizing LLMs (e.g., LLaMA-2) as the pivot to break down users' requests into detailed action proposals to call suitable foundation models; (2) integrating multi-source outputs from foundation models automatically and generating comprehensive responses for users; (3) adaptable to a wide range of applications such as text-conditioned image understanding/generation/editing and visual question answering. This paper outlines the architecture and capabilities of VisionGPT, demonstrating its potential to revolutionize the field of computer vision through enhanced efficiency, versatility, and generalization, and performance. Our code and models will be made publicly available. Keywords: VisionGPT, Open-world visual perception, Vision-language understanding, Large language model, and Foundation model
Abstract（参考訳）: 大規模言語モデル(LLM)とビジョンファウンデーションモデルの出現により、これらのオープンソースまたはAPIが利用可能なモデルのインテリジェンスとキャパシティを組み合わせることで、オープンワールドの視覚的知覚を実現する方法がオープンな疑問である。本稿では、ビジョンGPTを導入し、最先端基盤モデルの統合と自動化を行い、視覚言語理解と視覚指向AIの開発を容易にする。 VisionGPTは,1) LLM(例えばLLaMA-2)を,ユーザの要求を適切な基盤モデルを呼び出すための詳細なアクション提案に分解する要点として利用すること,2)基礎モデルからのマルチソース出力を自動で統合し,ユーザに対する包括的な応答を生成すること,3)テキスト条件の画像理解/生成/編集,視覚的質問応答など,幅広いアプリケーションに適用可能であること,の3つの主要な特徴を生かした,汎用マルチモーダルフレームワークを基盤としている。本稿では、VisionGPTのアーキテクチャと能力について概説し、効率、汎用性、一般化、性能の向上を通じてコンピュータビジョンの分野に革命をもたらす可能性を示す。私たちのコードとモデルは公開されます。キーワード:VisionGPT、オープンワールド視覚知覚、視覚言語理解、大規模言語モデル、基礎モデル

関連論文リスト

Weaving Context Across Images: Improving Vision-Language Models through Focus-Centric Visual Chains [31.828341309787042]
視覚言語モデル(VLM)は、単一画像タスクにおいて顕著な成功を収める。現実のシナリオでは複雑なマルチイメージの入力が伴うことが多く、パフォーマンスが著しく低下する。マルチイメージシナリオにおけるVLMの知覚、理解、推論能力を高める新しいパラダイムであるFocus-Centric Visual Chainを提案する。
論文参考訳（メタデータ） (2025-04-28T19:02:18Z)
Vitron: A Unified Pixel-level Vision LLM for Understanding, Generating, Segmenting, Editing [150.0380447353081]
本稿では,静的画像とダイナミックビデオの両方の包括的理解,セグメンテーション,クラスタ化のために設計された,ユニバーサルピクセルレベルのビジョンLLMであるVITRONを紹介する。 LLMの上に構築されているVITRONは、画像、ビデオ、ピクセルレベルの地域視覚のエンコーダをモジュール内に組み込んでおり、最先端のビジュアルスペシャリストをバックエンドとして採用している。
論文参考訳（メタデータ） (2024-10-08T08:39:04Z)
Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文参考訳（メタデータ） (2024-06-24T17:59:42Z)
MR-MLLM: Mutual Reinforcement of Multimodal Comprehension and Vision Perception [24.406224705072763]
Mutually Reinforced Multimodal Large Language Model (MR-MLLM) は視覚知覚とマルチモーダル理解を高める新しいフレームワークである。まず、視覚モデルからの詳細な視覚入力と言語モデルの言語深度を調和させるために、共有クエリ融合機構を提案する。第2に、視覚知覚出力から新たなモダリティを取り入れた、知覚強化型クロスモーダル積分法を提案する。
論文参考訳（メタデータ） (2024-06-22T07:10:36Z)
VisionGPT-3D: A Generalized Multimodal Agent for Enhanced 3D Vision Understanding [47.58359136198136]
VisionGPT-3Dはマルチモーダル基盤モデルの強みを基盤として多目的なマルチモーダルフレームワークを提供する。様々なSOTAビジョンモデルをシームレスに統合し、SOTAビジョンモデルの選択に自動化をもたらす。 2次元深度マップ解析に対応する適切な3次元メッシュ生成アルゴリズムを特定し、多様なマルチモーダル入力に基づいて最適な結果を生成する。
論文参考訳（メタデータ） (2024-03-14T16:13:00Z)
InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks [92.03764152132315]
我々は、視覚基盤モデルを60億のパラメータにスケールアップする大規模視覚言語基盤モデル(InternVL)を設計する。このモデルは、32の汎用視覚言語ベンチマークにおいて、最先端のパフォーマンスを広く適用し、達成することができる。強力な視覚能力を備え、ViT-22Bの代替となる。
論文参考訳（メタデータ） (2023-12-21T18:59:31Z)
UnifiedVisionGPT: Streamlining Vision-Oriented AI through Generalized Multimodal Framework [51.01581167257862]
UnifiedVisionGPTは、SOTAビジョンモデルの統合と自動化を目的とした新しいフレームワークである。本稿では,UnifiedVisionGPTのアーキテクチャと機能について概説し,コンピュータビジョンの分野に革命をもたらす可能性を示す。
論文参考訳（メタデータ） (2023-11-16T13:01:25Z)
Steve-Eye: Equipping LLM-based Embodied Agents with Visual Perception in Open Worlds [37.22688246779871]
大型言語モデル(LLM)は、世界と対話する自己駆動能力を持つエンボディエージェントを装備できる。 LLMはオープン世界の視覚的豊かさを見落とし、インタラクティブなプロセス全体を「目隠しされたテキストベースのゲーム」のように表現する傾向がある。我々は、この制限に対処するために、エンドツーエンドで訓練された大規模マルチモーダルモデルであるSteve-Eyeを提案する。
論文参考訳（メタデータ） (2023-10-20T03:22:05Z)
UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes [91.24112204588353]
我々は、幅広いコンピュータビジョンタスクをモデル化できる統一的なアプローチであるUViMを紹介する。以前のモデルとは対照的に、UViMは全てのタスクに対して同じ機能を持つ。多様な3つの視覚課題に対するUViMの有効性を実証する。
論文参考訳（メタデータ） (2022-05-20T17:47:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。