論文の概要: Uni-Perceiver: Pre-training Unified Architecture for Generic Perception
for Zero-shot and Few-shot Tasks
- arxiv url: http://arxiv.org/abs/2112.01522v1
- Date: Thu, 2 Dec 2021 18:59:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-03 17:00:48.530807
- Title: Uni-Perceiver: Pre-training Unified Architecture for Generic Perception
for Zero-shot and Few-shot Tasks
- Title(参考訳): Uni-Perceiver:zero-shotタスクとFew-shotタスクのためのジェネリックパーセプションのための事前学習型統一アーキテクチャ
- Authors: Xizhou Zhu, Jinguo Zhu, Hao Li, Xiaoshi Wu, Xiaogang Wang, Hongsheng
Li, Xiaohua Wang, Jifeng Dai
- Abstract要約: 我々はUni-Perceiverという汎用認識アーキテクチャを提案する。
様々なモダリティやタスクを、統一されたモデリングと共有パラメータで処理します。
その結果、チューニングなしで事前学習したモデルは、新しいタスクでも合理的なパフォーマンスを達成できることがわかった。
- 参考スコア(独自算出の注目度): 73.63892022944198
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Biological intelligence systems of animals perceive the world by integrating
information in different modalities and processing simultaneously for various
tasks. In contrast, current machine learning research follows a task-specific
paradigm, leading to inefficient collaboration between tasks and high marginal
costs of developing perception models for new tasks. In this paper, we present
a generic perception architecture named Uni-Perceiver, which processes a
variety of modalities and tasks with unified modeling and shared parameters.
Specifically, Uni-Perceiver encodes different task inputs and targets from
arbitrary modalities into a unified representation space with a
modality-agnostic Transformer encoder and lightweight modality-specific
tokenizers. Different perception tasks are modeled as the same formulation,
that is, finding the maximum likelihood target for each input through the
similarity of their representations. The model is pre-trained on several
uni-modal and multi-modal tasks, and evaluated on a variety of downstream
tasks, including novel tasks that did not appear in the pre-training stage.
Results show that our pre-trained model without any tuning can achieve
reasonable performance even on novel tasks. The performance can be improved to
a level close to state-of-the-art methods by conducting prompt tuning on 1% of
downstream task data. Full-data fine-tuning further delivers results on par
with or better than state-of-the-art results. Code shall be released.
- Abstract(参考訳): 動物の生物学的インテリジェンスシステムは、様々なモダリティに情報を統合し、様々なタスクを同時に処理することで世界を理解する。
対照的に、現在の機械学習研究はタスク固有のパラダイムに従い、タスク間の非効率な協調と、新しいタスクに対する知覚モデルを開発するための高い限界コストをもたらす。
本稿では,統一的なモデリングと共有パラメータを用いて様々なモダリティやタスクを処理する,uni-perceiverという汎用的な知覚アーキテクチャを提案する。
具体的には、uni-perceiverは任意のモダリティから異なるタスク入力とターゲットをモダリティ非依存トランスフォーマーエンコーダと軽量モダリティ固有のトークンライザを備えた統一表現空間に符号化する。
異なる知覚タスクは、その表現の類似性を通じて各入力の最大確率目標を見つけるという同じ定式化としてモデル化される。
このモデルは、いくつかのユニモーダルおよびマルチモーダルタスクで事前トレーニングされ、事前トレーニングステージに現れない新しいタスクを含む、さまざまな下流タスクで評価される。
その結果、チューニングなしの事前学習モデルでは、新しいタスクでも妥当なパフォーマンスが得られます。
ダウンストリームタスクデータの1%をプロンプトチューニングすることにより、パフォーマンスを最先端メソッドに近いレベルまで向上させることができる。
フルデータの微調整はさらに、最先端の結果と同等かそれ以上の結果を提供する。
コードは解放される。
関連論文リスト
- A Multitask Deep Learning Model for Classification and Regression of Hyperspectral Images: Application to the large-scale dataset [44.94304541427113]
ハイパースペクトル画像上で複数の分類タスクと回帰タスクを同時に行うマルチタスク深層学習モデルを提案する。
我々は、TAIGAと呼ばれる大規模なハイパースペクトルデータセットに対するアプローチを検証した。
結果の総合的定性的および定量的分析により,提案手法が他の最先端手法よりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2024-07-23T11:14:54Z) - Towards a Generalist and Blind RGB-X Tracker [91.36268768952755]
我々は、推論時間中に任意のモダリティ X を無視できる単一のモデルトラッカーを開発する。
トレーニングプロセスは非常にシンプルで,複数ラベルの分類損失をルーティング関数に統合する。
我々のジェネラリストとブラインドトラッカーは、確立されたモーダル固有モデルと比較して、競争性能を達成することができる。
論文 参考訳(メタデータ) (2024-05-28T03:00:58Z) - Modeling Output-Level Task Relatedness in Multi-Task Learning with Feedback Mechanism [7.479892725446205]
マルチタスク学習(MTL)は、異なるレベルで情報を共有することで複数のタスクを同時に学習するパラダイムである。
異なるタスクが相互に影響のある相関出力を生成する可能性があることを考慮し、後続情報をモデルに導入する。
我々は,MTLモデルにフィードバック機構を組み込むことで,あるタスクの出力が他のタスクの隠れ機能として機能する。
論文 参考訳(メタデータ) (2024-04-01T03:27:34Z) - Distribution Matching for Multi-Task Learning of Classification Tasks: a
Large-Scale Study on Faces & Beyond [62.406687088097605]
マルチタスク学習(MTL)は、複数の関連するタスクを共同で学習し、共有表現空間から恩恵を受けるフレームワークである。
MTLは、ほとんど重複しない、あるいは重複しないアノテーションで分類タスクで成功することを示す。
本稿では,分散マッチングによるタスク間の知識交換を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-02T14:18:11Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - Musketeer: Joint Training for Multi-task Vision Language Model with Task Explanation Prompts [75.75548749888029]
本稿では,全てのタスクに対してパラメータを共同で訓練し,複数の異種タスク間で完全に共有する視覚言語モデルを提案する。
単一のモデルで、Musteteerは単一のタスクでトレーニングされた強いベースラインに匹敵する結果を得る。
論文 参考訳(メタデータ) (2023-05-11T17:57:49Z) - Unifying Flow, Stereo and Depth Estimation [121.54066319299261]
本稿では3つの動作と3次元知覚タスクのための統一的な定式化とモデルを提案する。
これら3つのタスクを、統一された高密度対応マッチング問題として定式化する。
我々のモデルは、モデルアーキテクチャとパラメータがタスク間で共有されているため、自然にクロスタスク転送を可能にします。
論文 参考訳(メタデータ) (2022-11-10T18:59:54Z) - How to Sense the World: Leveraging Hierarchy in Multimodal Perception
for Robust Reinforcement Learning Agents [9.840104333194663]
我々は表現モデルの設計における階層性を主張し、新しいマルチモーダル表現モデルであるMUSEに貢献する。
MUSEは,アタリゲームにおけるマルチモーダル観察を備えた深層強化学習エージェントの感覚表現モデルである。
我々は、強化学習エージェントの異なる設計に関する比較研究を行い、MUSEは、エージェントが最小性能の損失で不完全な知覚経験の下でタスクを実行できることを示した。
論文 参考訳(メタデータ) (2021-10-07T16:35:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。