論文の概要: Uni-Perceiver v2: A Generalist Model for Large-Scale Vision and
Vision-Language Tasks
- arxiv url: http://arxiv.org/abs/2211.09808v1
- Date: Thu, 17 Nov 2022 18:59:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 16:47:29.898394
- Title: Uni-Perceiver v2: A Generalist Model for Large-Scale Vision and
Vision-Language Tasks
- Title(参考訳): Uni-Perceiver v2: 大規模ビジョンと視覚言語タスクの汎用モデル
- Authors: Hao Li, Jinguo Zhu, Xiaohu Jiang, Xizhou Zhu, Hongsheng Li, Chun Yuan,
Xiaohua Wang, Yu Qiao, Xiaogang Wang, Wenhai Wang, Jifeng Dai
- Abstract要約: 大規模ビジョンと視覚非依存タスクを扱える最初のジェネラリストモデルであるUni-Perceiver v2を提案する。
具体的には、画像は一般領域の提案としてエンコードされ、テキストはTransformerベースの言語モデルを介してエンコードされる。
Uni-Perceiver v2は、幅広いビジョンとビジョン言語タスクで競争力を発揮する。
- 参考スコア(独自算出の注目度): 86.66733026149892
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the remarkable success of foundation models, their task-specific
fine-tuning paradigm makes them inconsistent with the goal of general
perception modeling. The key to eliminating this inconsistency is to use
generalist models for general task modeling. However, existing attempts at
generalist models are inadequate in both versatility and performance. In this
paper, we propose Uni-Perceiver v2, which is the first generalist model capable
of handling major large-scale vision and vision-language tasks with competitive
performance. Specifically, images are encoded as general region proposals,
while texts are encoded via a Transformer-based language model. The encoded
representations are transformed by a task-agnostic decoder. Different tasks are
formulated as a unified maximum likelihood estimation problem. We further
propose an improved optimizer to ensure stable multi-task learning with an
unmixed sampling strategy, which is helpful for tasks requiring large
batch-size training. After being jointly trained on various tasks,
Uni-Perceiver v2 is capable of directly handling downstream tasks without any
task-specific adaptation. Results show that Uni-Perceiver v2 outperforms all
existing generalist models in both versatility and performance. Meanwhile,
compared with the commonly-recognized strong baselines that require
tasks-specific fine-tuning, Uni-Perceiver v2 achieves competitive performance
on a broad range of vision and vision-language tasks.
- Abstract(参考訳): 基礎モデルの顕著な成功にもかかわらず、タスク固有の微調整パラダイムは、一般的な知覚モデリングの目標と矛盾する。
この矛盾を取り除く鍵は、一般的なタスクモデリングにジェネラリストモデルを使用することです。
しかし、ジェネラリストモデルに対する既存の試みは、汎用性と性能の両方において不十分である。
本稿では,大規模ビジョンと視覚言語タスクを競合性能で処理できる最初のジェネラリストモデルであるuni-perceiver v2を提案する。
具体的には、画像は一般領域の提案としてエンコードされ、テキストはTransformerベースの言語モデルを介してエンコードされる。
エンコードされた表現はタスクに依存しないデコーダによって変換される。
異なるタスクは、統一された最大推定問題として定式化される。
さらに,大規模なバッチサイズのトレーニングを必要とするタスクに有用な,非混合サンプリング戦略による安定なマルチタスク学習を実現するための最適化手法を提案する。
様々なタスクを共同で訓練した後、UniPerceiver v2はタスク固有の適応なしに下流タスクを直接処理できる。
結果,Uni-Perceiver v2は汎用性と性能の両面で,既存のジェネラリストモデルよりも優れていた。
一方、タスク固有の微調整を必要とする一般的に認識されている強固なベースラインと比較すると、uni-perceiver v2は幅広い視覚および視覚言語タスクで競争力を発揮する。
関連論文リスト
- Griffon-G: Bridging Vision-Language and Vision-Centric Tasks via Large Multimodal Models [27.45225442048711]
CCMD-8Mを導入し、視覚中心のタスクと視覚言語タスクを統一する際のデータ障壁を克服する。
また、Griffon-Gは、単一のエンドツーエンドパラダイム内の視覚中心タスクと視覚言語タスクの両方に対処する一般的な大規模マルチモーダルモデルである。
論文 参考訳(メタデータ) (2024-10-21T16:30:29Z) - GiT: Towards Generalist Vision Transformer through Universal Language Interface [94.33443158125186]
本稿では,バニラ ViT のみを用いて,様々な視覚タスクに同時に適用可能な,シンプルかつ効果的な GiT フレームワークを提案する。
GiTはマルチタスクのビジュアルモデルで、タスク固有の微調整なしで5つの代表的なベンチマークで共同でトレーニングされている。
論文 参考訳(メタデータ) (2024-03-14T13:47:41Z) - UnIVAL: Unified Model for Image, Video, Audio and Language Tasks [105.77733287326308]
UnIVALモデルは2つのモードを超えて、テキスト、画像、ビデオ、オーディオを1つのモデルに統合する。
本モデルは,タスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクに対して効率的に事前学習を行う。
統一モデルにより、重み一般化によるマルチモーダルモデルの融合に関する新しい研究を提案する。
論文 参考訳(メタデータ) (2023-07-30T09:48:36Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - Exposing and Addressing Cross-Task Inconsistency in Unified
Vision-Language Models [80.23791222509644]
一貫性のないAIモデルは、人間のユーザーによって不安定で信頼できないと見なされている。
最先端のビジョン言語モデルは、タスク間の驚くほど高い一貫性のない振る舞いに悩まされている。
本稿では,大規模で自動生成されるクロスタスクコントラスト集合上で計算されたランク相関に基づく補助訓練目標を提案する。
論文 参考訳(メタデータ) (2023-03-28T16:57:12Z) - Uni-Perceiver-MoE: Learning Sparse Generalist Models with Conditional
MoEs [63.936622239286685]
異なるタスクとモダリティ間の干渉が、この現象の主要な要因であることがわかった。
一般モデルに条件混合(Conditional Mixture-of-Experts)を導入する。
コード及び事前訓練されたジェネリストモデルは、解放される。
論文 参考訳(メタデータ) (2022-06-09T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。