論文の概要: Uni-Perceiver: Pre-training Unified Architecture for Generic Perception
for Zero-shot and Few-shot Tasks
- arxiv url: http://arxiv.org/abs/2112.01522v1
- Date: Thu, 2 Dec 2021 18:59:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-03 17:00:48.530807
- Title: Uni-Perceiver: Pre-training Unified Architecture for Generic Perception
for Zero-shot and Few-shot Tasks
- Title(参考訳): Uni-Perceiver:zero-shotタスクとFew-shotタスクのためのジェネリックパーセプションのための事前学習型統一アーキテクチャ
- Authors: Xizhou Zhu, Jinguo Zhu, Hao Li, Xiaoshi Wu, Xiaogang Wang, Hongsheng
Li, Xiaohua Wang, Jifeng Dai
- Abstract要約: 我々はUni-Perceiverという汎用認識アーキテクチャを提案する。
様々なモダリティやタスクを、統一されたモデリングと共有パラメータで処理します。
その結果、チューニングなしで事前学習したモデルは、新しいタスクでも合理的なパフォーマンスを達成できることがわかった。
- 参考スコア(独自算出の注目度): 73.63892022944198
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Biological intelligence systems of animals perceive the world by integrating
information in different modalities and processing simultaneously for various
tasks. In contrast, current machine learning research follows a task-specific
paradigm, leading to inefficient collaboration between tasks and high marginal
costs of developing perception models for new tasks. In this paper, we present
a generic perception architecture named Uni-Perceiver, which processes a
variety of modalities and tasks with unified modeling and shared parameters.
Specifically, Uni-Perceiver encodes different task inputs and targets from
arbitrary modalities into a unified representation space with a
modality-agnostic Transformer encoder and lightweight modality-specific
tokenizers. Different perception tasks are modeled as the same formulation,
that is, finding the maximum likelihood target for each input through the
similarity of their representations. The model is pre-trained on several
uni-modal and multi-modal tasks, and evaluated on a variety of downstream
tasks, including novel tasks that did not appear in the pre-training stage.
Results show that our pre-trained model without any tuning can achieve
reasonable performance even on novel tasks. The performance can be improved to
a level close to state-of-the-art methods by conducting prompt tuning on 1% of
downstream task data. Full-data fine-tuning further delivers results on par
with or better than state-of-the-art results. Code shall be released.
- Abstract(参考訳): 動物の生物学的インテリジェンスシステムは、様々なモダリティに情報を統合し、様々なタスクを同時に処理することで世界を理解する。
対照的に、現在の機械学習研究はタスク固有のパラダイムに従い、タスク間の非効率な協調と、新しいタスクに対する知覚モデルを開発するための高い限界コストをもたらす。
本稿では,統一的なモデリングと共有パラメータを用いて様々なモダリティやタスクを処理する,uni-perceiverという汎用的な知覚アーキテクチャを提案する。
具体的には、uni-perceiverは任意のモダリティから異なるタスク入力とターゲットをモダリティ非依存トランスフォーマーエンコーダと軽量モダリティ固有のトークンライザを備えた統一表現空間に符号化する。
異なる知覚タスクは、その表現の類似性を通じて各入力の最大確率目標を見つけるという同じ定式化としてモデル化される。
このモデルは、いくつかのユニモーダルおよびマルチモーダルタスクで事前トレーニングされ、事前トレーニングステージに現れない新しいタスクを含む、さまざまな下流タスクで評価される。
その結果、チューニングなしの事前学習モデルでは、新しいタスクでも妥当なパフォーマンスが得られます。
ダウンストリームタスクデータの1%をプロンプトチューニングすることにより、パフォーマンスを最先端メソッドに近いレベルまで向上させることができる。
フルデータの微調整はさらに、最先端の結果と同等かそれ以上の結果を提供する。
コードは解放される。
関連論文リスト
- Distribution Matching for Multi-Task Learning of Classification Tasks: a
Large-Scale Study on Faces & Beyond [62.406687088097605]
マルチタスク学習(MTL)は、複数の関連するタスクを共同で学習し、共有表現空間から恩恵を受けるフレームワークである。
MTLは、ほとんど重複しない、あるいは重複しないアノテーションで分類タスクで成功することを示す。
本稿では,分散マッチングによるタスク間の知識交換を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-02T14:18:11Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - Improving Cross-task Generalization of Unified Table-to-text Models with
Compositional Task Configurations [63.04466647849211]
メソッドは通常、タスク情報をエンコーダのプレフィックスとして単純なデータセット名でエンコードする。
本稿では,エンコーダがタスク間の一般化を改善するためのプロンプトセットであるコンポジションタスク構成を提案する。
これは、モデルがトレーニング中に異なるタスク間で共有知識をより良く学習できるだけでなく、新しい構成を構築することでモデルを制御できることを示している。
論文 参考訳(メタデータ) (2022-12-17T02:20:14Z) - Unifying Flow, Stereo and Depth Estimation [121.54066319299261]
本稿では3つの動作と3次元知覚タスクのための統一的な定式化とモデルを提案する。
これら3つのタスクを、統一された高密度対応マッチング問題として定式化する。
我々のモデルは、モデルアーキテクチャとパラメータがタスク間で共有されているため、自然にクロスタスク転送を可能にします。
論文 参考訳(メタデータ) (2022-11-10T18:59:54Z) - Prompt Tuning with Soft Context Sharing for Vision-Language Models [56.628198024857056]
本稿では,複数目的の複数ショットタスクに対して,事前学習した視覚言語モデルを同時に微調整する手法を提案する。
実験では、SoftCPTは、代表的なシングルタスクプロンプトチューニング手法であるCoOpを大きなマージンで上回る。
論文 参考訳(メタデータ) (2022-08-29T10:19:10Z) - An Evolutionary Approach to Dynamic Introduction of Tasks in Large-scale
Multitask Learning Systems [4.675744559395732]
マルチタスク学習は、複数のタスクから学習できるモデルが知識伝達によってより良い品質と効率を達成すると仮定する。
最先端のMLモデルは、タスクごとに高いカスタマイズに依存し、タスクの数をスケールするのではなく、サイズとデータスケールを活用する。
本稿では,大規模マルチタスクモデルを生成でき,新しいタスクの動的かつ連続的な追加を支援する進化的手法を提案する。
論文 参考訳(メタデータ) (2022-05-25T13:10:47Z) - Multi-Task Processes [13.362632630637707]
複数のプロセスから実現されたタスクを推論するためのマルチタスクプロセス(MTP)を提案する。
MTPは,様々な実世界のデータから相関関係を発見し,活用することで,複数のタスクを協調的にモデル化できることを示す。
論文 参考訳(メタデータ) (2021-10-28T08:45:43Z) - How to Sense the World: Leveraging Hierarchy in Multimodal Perception
for Robust Reinforcement Learning Agents [9.840104333194663]
我々は表現モデルの設計における階層性を主張し、新しいマルチモーダル表現モデルであるMUSEに貢献する。
MUSEは,アタリゲームにおけるマルチモーダル観察を備えた深層強化学習エージェントの感覚表現モデルである。
我々は、強化学習エージェントの異なる設計に関する比較研究を行い、MUSEは、エージェントが最小性能の損失で不完全な知覚経験の下でタスクを実行できることを示した。
論文 参考訳(メタデータ) (2021-10-07T16:35:23Z) - Boosting a Model Zoo for Multi-Task and Continual Learning [15.110807414130923]
モデル動物園」はモデルのアンサンブルを構築するアルゴリズムであり、それぞれが非常に小さく、小さなタスクセットで訓練されている。
モデルZooは,マルチタスクおよび連続学習における最先端手法と比較して,予測精度が大きく向上する。
論文 参考訳(メタデータ) (2021-06-06T04:25:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。