論文の概要: General Object Foundation Model for Images and Videos at Scale
- arxiv url: http://arxiv.org/abs/2312.09158v1
- Date: Thu, 14 Dec 2023 17:26:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-15 20:54:56.399564
- Title: General Object Foundation Model for Images and Videos at Scale
- Title(参考訳): 大規模画像と映像のための汎用オブジェクトファウンデーションモデル
- Authors: Junfeng Wu, Yi Jiang, Qihao Liu, Zehuan Yuan, Xiang Bai, Song Bai
- Abstract要約: 本稿では,画像やビデオ中の物体の位置と識別のためのオブジェクトレベルの基礎モデルであるGLEEを提案する。
GLEEは、オープンワールドシナリオにおける任意のオブジェクトの検出、セグメンテーション、トラッキング、グラウンド、識別を達成する。
画像エンコーダ,テキストエンコーダ,視覚プロンプトを用いて複数モーダル入力を処理し,様々なオブジェクト中心の下流タスクを同時に解決する。
- 参考スコア(独自算出の注目度): 99.2806103051613
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present GLEE in this work, an object-level foundation model for locating
and identifying objects in images and videos. Through a unified framework, GLEE
accomplishes detection, segmentation, tracking, grounding, and identification
of arbitrary objects in the open world scenario for various object perception
tasks. Adopting a cohesive learning strategy, GLEE acquires knowledge from
diverse data sources with varying supervision levels to formulate general
object representations, excelling in zero-shot transfer to new data and tasks.
Specifically, we employ an image encoder, text encoder, and visual prompter to
handle multi-modal inputs, enabling to simultaneously solve various
object-centric downstream tasks while maintaining state-of-the-art performance.
Demonstrated through extensive training on over five million images from
diverse benchmarks, GLEE exhibits remarkable versatility and improved
generalization performance, efficiently tackling downstream tasks without the
need for task-specific adaptation. By integrating large volumes of
automatically labeled data, we further enhance its zero-shot generalization
capabilities. Additionally, GLEE is capable of being integrated into Large
Language Models, serving as a foundational model to provide universal
object-level information for multi-modal tasks. We hope that the versatility
and universality of our method will mark a significant step in the development
of efficient visual foundation models for AGI systems. The model and code will
be released at https://glee-vision.github.io .
- Abstract(参考訳): 本研究では,画像やビデオ中の物体の位置と識別のためのオブジェクトレベルの基盤モデルであるGLEEについて述べる。
統一されたフレームワークを通じて、GLEEは様々なオブジェクト認識タスクのためのオープンワールドシナリオにおける任意のオブジェクトの検出、セグメンテーション、追跡、グラウンド化、識別を達成する。
一貫性のある学習戦略を採用することで、GLEEはさまざまなデータソースから知識を取得し、汎用オブジェクト表現を定式化し、新しいデータやタスクへのゼロショット転送に優れる。
具体的には、画像エンコーダ、テキストエンコーダ、視覚プロンプトを用いてマルチモーダル入力を処理し、最先端性能を維持しつつ、様々なオブジェクト中心の下流タスクを同時に解決する。
さまざまなベンチマークから500万以上のイメージを広範囲にトレーニングすることで、GLEEは優れた汎用性と一般化性能を示し、タスク固有の適応を必要とせずに、下流タスクに効率的に対処する。
大量のラベル付きデータを統合することで、そのゼロショット一般化能力をさらに高めます。
さらに、GLEEはLarge Language Modelsに統合され、マルチモーダルタスクのための普遍的なオブジェクトレベル情報を提供する基盤モデルとして機能する。
提案手法の汎用性と普遍性は,AGIシステムのための効率的な視覚基盤モデルの開発において重要なステップとなることを期待する。
モデルとコードはhttps://glee-vision.github.ioでリリースされる。
関連論文リスト
- PartGLEE: A Foundation Model for Recognizing and Parsing Any Objects [104.34288029037141]
画像中の物体と部分の位置と識別のための部分レベル基礎モデルであるPartGLEEを提案する。
PartGLEEは、オープンワールドシナリオにおけるあらゆる粒度のインスタンスの検出、セグメンテーション、グラウンド化を達成する。
論文 参考訳(メタデータ) (2024-07-23T17:58:26Z) - VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks [89.24440488456405]
VisionLLM v2は、エンドツーエンドの汎用マルチモーダル大モデル(MLLM)である。
単一のフレームワーク内で視覚的知覚、理解、生成を統一する。
論文 参考訳(メタデータ) (2024-06-12T16:44:50Z) - GiT: Towards Generalist Vision Transformer through Universal Language Interface [94.33443158125186]
本稿では,バニラ ViT のみを用いて,様々な視覚タスクに同時に適用可能な,シンプルかつ効果的な GiT フレームワークを提案する。
GiTはマルチタスクのビジュアルモデルで、タスク固有の微調整なしで5つの代表的なベンチマークで共同でトレーニングされている。
論文 参考訳(メタデータ) (2024-03-14T13:47:41Z) - Probing Multimodal Large Language Models for Global and Local Semantic Representations [57.25949445963422]
マルチモーダル大言語モデルのどの層がグローバルな画像情報に最も力を注いでいるかを検討する。
本研究では,モデルの中間層が,よりグローバルな意味情報を符号化できることを見出した。
最上位のレイヤが過度にローカル情報に集中していることが分かり、グローバル情報をエンコードする能力の低下につながります。
論文 参考訳(メタデータ) (2024-02-27T08:27:15Z) - Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model [17.3535277338312]
u-LLaVAは、MLLMの知覚能力を改善するためにピクセル、地域、グローバル機能を統合する革新的な統合マルチタスクフレームワークである。
この研究は、277Kサンプルからなるマスクベースの新しいマルチタスクデータセットに貢献し、MLLMの微粒化知覚能力に挑戦し評価する。
論文 参考訳(メタデータ) (2023-11-09T13:18:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。