Fugu-MT 論文翻訳(概要): VisionLLM: Large Language Model is also an Open-Ended Decoder for Vision-Centric Tasks

論文の概要: VisionLLM: Large Language Model is also an Open-Ended Decoder for Vision-Centric Tasks

arxiv url: http://arxiv.org/abs/2305.11175v2
Date: Thu, 25 May 2023 15:02:07 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-26 19:39:13.432673
Title: VisionLLM: Large Language Model is also an Open-Ended Decoder for Vision-Centric Tasks
Title（参考訳）: VisionLLM: 大規模言語モデルはビジョン中心タスクのためのオープンエンディングデコーダでもある
Authors: Wenhai Wang, Zhe Chen, Xiaokang Chen, Jiannan Wu, Xizhou Zhu, Gang Zeng, Ping Luo, Tong Lu, Jie Zhou, Yu Qiao, Jifeng Dai
Abstract要約: VisionLLMは視覚中心のタスクのためのフレームワークで、柔軟に定義され、言語命令を使って管理できる。検出固有モデルと同等の精度で,COCO上で60%以上のmAPを達成できる。
参考スコア（独自算出の注目度）: 81.32968995346775
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have notably accelerated progress towards artificial general intelligence (AGI), with their impressive zero-shot capacity for user-tailored tasks, endowing them with immense potential across a range of applications. However, in the field of computer vision, despite the availability of numerous powerful vision foundation models (VFMs), they are still restricted to tasks in a pre-defined form, struggling to match the open-ended task capabilities of LLMs. In this work, we present an LLM-based framework for vision-centric tasks, termed VisionLLM. This framework provides a unified perspective for vision and language tasks by treating images as a foreign language and aligning vision-centric tasks with language tasks that can be flexibly defined and managed using language instructions. An LLM-based decoder can then make appropriate predictions based on these instructions for open-ended tasks. Extensive experiments show that the proposed VisionLLM can achieve different levels of task customization through language instructions, from fine-grained object-level to coarse-grained task-level customization, all with good results. It's noteworthy that, with a generalist LLM-based framework, our model can achieve over 60\% mAP on COCO, on par with detection-specific models. We hope this model can set a new baseline for generalist vision and language models. The demo shall be released based on https://github.com/OpenGVLab/InternGPT. The code shall be released at https://github.com/OpenGVLab/VisionLLM.
Abstract（参考訳）: 大規模言語モデル(LLM)は、人工知能(AGI)への進歩を顕著に加速しており、ユーザに適したタスクに対して印象的なゼロショット能力を備えており、幅広いアプリケーションに対して大きな可能性を秘めている。しかしながら、コンピュータビジョンの分野では、多数の強力なビジョン基盤モデル(VFM)が利用可能であるにもかかわらず、それらはまだ事前に定義された形式のタスクに限定されており、LLMのオープンなタスク能力に匹敵しない。本稿では,視覚中心タスクのための llm ベースのフレームワークである visionllm を提案する。このフレームワークは、画像を外国語として扱い、視覚中心のタスクを柔軟に定義し、言語命令を使って管理できる言語タスクと整合させることにより、視覚と言語タスクの統一的な視点を提供する。 LLMベースのデコーダは、オープンなタスクに対してこれらの命令に基づいて適切な予測を行うことができる。広範な実験により、提案する visionllm は、細粒度オブジェクトレベルから粗粒度タスクレベルのカスタマイズまで、言語命令を通じて異なるレベルのタスクカスタマイズを達成できることを示した。注目すべきなのは、一般のLLMベースのフレームワークによって、私たちのモデルは、検出固有のモデルと同等に、COCO上で60倍のmAPを達成することができることです。このモデルがジェネラリストビジョンと言語モデルの新たなベースラインを設定できることを願っています。デモはhttps://github.com/OpenGVLab/InternGPTに基づいてリリースされる。コードはhttps://github.com/OpenGVLab/VisionLLMで公開される。

関連論文リスト

HoVLE: Unleashing the Power of Monolithic Vision-Language Models with Holistic Vision-Language Embedding [91.0552157725366]
本稿では,HoVLEという新しい高性能モノリシックVLMを提案する。視覚的入力とテキスト入力を共有空間に変換し、LLMはテキストと同じ方法で画像を処理できる。実験の結果,HoVLEは様々なベンチマークにおいて,主要な構成モデルに近い性能が得られることがわかった。
論文参考訳（メタデータ） (2024-12-20T18:59:59Z)
VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks [89.24440488456405]
VisionLLM v2は、エンドツーエンドの汎用マルチモーダル大モデル(MLLM)である。単一のフレームワーク内で視覚的知覚、理解、生成を統一する。
論文参考訳（メタデータ） (2024-06-12T16:44:50Z)
LM4LV: A Frozen Large Language Model for Low-level Vision Tasks [25.3601306724822]
$textbfLM4LV$は、大規模な言語モデルで、マルチモーダルデータや事前データなしで、さまざまな低レベルの視覚タスクを解決できるフレームワークである。これは低レベルのビジョンにおけるLLMの強い可能性を示し、MLLMと低レベルのビジョンタスクの間のギャップを埋める。
論文参考訳（メタデータ） (2024-05-24T17:25:00Z)
CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文参考訳（メタデータ） (2024-02-21T08:21:12Z)
InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks [92.03764152132315]
我々は、視覚基盤モデルを60億のパラメータにスケールアップする大規模視覚言語基盤モデル(InternVL)を設計する。このモデルは、32の汎用視覚言語ベンチマークにおいて、最先端のパフォーマンスを広く適用し、達成することができる。強力な視覚能力を備え、ViT-22Bの代替となる。
論文参考訳（メタデータ） (2023-12-21T18:59:31Z)
Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models [50.653838482083614]
本稿では,IT-LVLMの基本的なコンピュータビジョンタスクにおける能力を評価するために,スケーラブルなテストベッドを提案する。 MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
論文参考訳（メタデータ） (2023-12-03T16:39:36Z)
InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。 InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-11-12T09:58:16Z)
Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文参考訳（メタデータ） (2023-09-09T03:01:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。