Fugu-MT 論文翻訳(概要): Uni-Perceiver: Pre-training Unified Architecture for Generic Perception for Zero-shot and Few-shot Tasks

論文の概要: Uni-Perceiver: Pre-training Unified Architecture for Generic Perception for Zero-shot and Few-shot Tasks

arxiv url: http://arxiv.org/abs/2112.01522v1
Date: Thu, 2 Dec 2021 18:59:50 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-03 17:00:48.530807
Title: Uni-Perceiver: Pre-training Unified Architecture for Generic Perception for Zero-shot and Few-shot Tasks
Title（参考訳）: Uni-Perceiver:zero-shotタスクとFew-shotタスクのためのジェネリックパーセプションのための事前学習型統一アーキテクチャ
Authors: Xizhou Zhu, Jinguo Zhu, Hao Li, Xiaoshi Wu, Xiaogang Wang, Hongsheng Li, Xiaohua Wang, Jifeng Dai
Abstract要約: 我々はUni-Perceiverという汎用認識アーキテクチャを提案する。様々なモダリティやタスクを、統一されたモデリングと共有パラメータで処理します。その結果、チューニングなしで事前学習したモデルは、新しいタスクでも合理的なパフォーマンスを達成できることがわかった。
参考スコア（独自算出の注目度）: 73.63892022944198
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Biological intelligence systems of animals perceive the world by integrating information in different modalities and processing simultaneously for various tasks. In contrast, current machine learning research follows a task-specific paradigm, leading to inefficient collaboration between tasks and high marginal costs of developing perception models for new tasks. In this paper, we present a generic perception architecture named Uni-Perceiver, which processes a variety of modalities and tasks with unified modeling and shared parameters. Specifically, Uni-Perceiver encodes different task inputs and targets from arbitrary modalities into a unified representation space with a modality-agnostic Transformer encoder and lightweight modality-specific tokenizers. Different perception tasks are modeled as the same formulation, that is, finding the maximum likelihood target for each input through the similarity of their representations. The model is pre-trained on several uni-modal and multi-modal tasks, and evaluated on a variety of downstream tasks, including novel tasks that did not appear in the pre-training stage. Results show that our pre-trained model without any tuning can achieve reasonable performance even on novel tasks. The performance can be improved to a level close to state-of-the-art methods by conducting prompt tuning on 1% of downstream task data. Full-data fine-tuning further delivers results on par with or better than state-of-the-art results. Code shall be released.
Abstract（参考訳）: 動物の生物学的インテリジェンスシステムは、様々なモダリティに情報を統合し、様々なタスクを同時に処理することで世界を理解する。対照的に、現在の機械学習研究はタスク固有のパラダイムに従い、タスク間の非効率な協調と、新しいタスクに対する知覚モデルを開発するための高い限界コストをもたらす。本稿では,統一的なモデリングと共有パラメータを用いて様々なモダリティやタスクを処理する,uni-perceiverという汎用的な知覚アーキテクチャを提案する。具体的には、uni-perceiverは任意のモダリティから異なるタスク入力とターゲットをモダリティ非依存トランスフォーマーエンコーダと軽量モダリティ固有のトークンライザを備えた統一表現空間に符号化する。異なる知覚タスクは、その表現の類似性を通じて各入力の最大確率目標を見つけるという同じ定式化としてモデル化される。このモデルは、いくつかのユニモーダルおよびマルチモーダルタスクで事前トレーニングされ、事前トレーニングステージに現れない新しいタスクを含む、さまざまな下流タスクで評価される。その結果、チューニングなしの事前学習モデルでは、新しいタスクでも妥当なパフォーマンスが得られます。ダウンストリームタスクデータの1%をプロンプトチューニングすることにより、パフォーマンスを最先端メソッドに近いレベルまで向上させることができる。フルデータの微調整はさらに、最先端の結果と同等かそれ以上の結果を提供する。コードは解放される。

関連論文リスト

Single-Input Multi-Output Model Merging: Leveraging Foundation Models for Dense Multi-Task Learning [46.51245338355645]
モデルマージは、シングルタスクのチェックポイントをマルチタスクモデルにマージするための、柔軟で計算的に抽出可能なアプローチである。本研究は,タスク固有デコーダの存在により,文献で研究されている単一入出力・複数出力モデルのマージ設定と定性的に異なることを示す。 SIMO設定に対する2つの単純かつ効率的な修正を提案し,統合後の特徴表現を再調整する。
論文参考訳（メタデータ） (2025-04-15T15:10:46Z)
One Framework to Rule Them All: Unifying Multimodal Tasks with LLM Neural-Tuning [16.96824902454355]
複数のタスクやモダリティを同時に処理する統合フレームワークを提案する。このフレームワークでは、すべてのモダリティとタスクは統一トークンとして表現され、単一の一貫したアプローチでトレーニングされる。複数のタスクラベルを付加したサンプルを含む新しいベンチマークMMUDを提案する。複数のタスクを合理化して効率的に同時に処理できることを実証する。
論文参考訳（メタデータ） (2024-08-06T07:19:51Z)
A Multitask Deep Learning Model for Classification and Regression of Hyperspectral Images: Application to the large-scale dataset [44.94304541427113]
ハイパースペクトル画像上で複数の分類タスクと回帰タスクを同時に行うマルチタスク深層学習モデルを提案する。我々は、TAIGAと呼ばれる大規模なハイパースペクトルデータセットに対するアプローチを検証した。結果の総合的定性的および定量的分析により,提案手法が他の最先端手法よりも有意に優れていることを示す。
論文参考訳（メタデータ） (2024-07-23T11:14:54Z)
Towards a Generalist and Blind RGB-X Tracker [91.36268768952755]
我々は、推論時間中に任意のモダリティ X を無視できる単一のモデルトラッカーを開発する。トレーニングプロセスは非常にシンプルで,複数ラベルの分類損失をルーティング関数に統合する。我々のジェネラリストとブラインドトラッカーは、確立されたモーダル固有モデルと比較して、競争性能を達成することができる。
論文参考訳（メタデータ） (2024-05-28T03:00:58Z)
Modeling Output-Level Task Relatedness in Multi-Task Learning with Feedback Mechanism [7.479892725446205]
マルチタスク学習(MTL)は、異なるレベルで情報を共有することで複数のタスクを同時に学習するパラダイムである。異なるタスクが相互に影響のある相関出力を生成する可能性があることを考慮し、後続情報をモデルに導入する。我々は,MTLモデルにフィードバック機構を組み込むことで,あるタスクの出力が他のタスクの隠れ機能として機能する。
論文参考訳（メタデータ） (2024-04-01T03:27:34Z)
Distribution Matching for Multi-Task Learning of Classification Tasks: a Large-Scale Study on Faces & Beyond [62.406687088097605]
マルチタスク学習(MTL)は、複数の関連するタスクを共同で学習し、共有表現空間から恩恵を受けるフレームワークである。 MTLは、ほとんど重複しない、あるいは重複しないアノテーションで分類タスクで成功することを示す。本稿では,分散マッチングによるタスク間の知識交換を可能にする新しい手法を提案する。
論文参考訳（メタデータ） (2024-01-02T14:18:11Z)
An Efficient General-Purpose Modular Vision Model via Multi-Task Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文参考訳（メタデータ） (2023-06-29T17:59:57Z)
Musketeer: Joint Training for Multi-task Vision Language Model with Task Explanation Prompts [75.75548749888029]
本稿では,全てのタスクに対してパラメータを共同で訓練し,複数の異種タスク間で完全に共有する視覚言語モデルを提案する。単一のモデルで、Musteteerは単一のタスクでトレーニングされた強いベースラインに匹敵する結果を得る。
論文参考訳（メタデータ） (2023-05-11T17:57:49Z)
Improving Cross-task Generalization of Unified Table-to-text Models with Compositional Task Configurations [63.04466647849211]
メソッドは通常、タスク情報をエンコーダのプレフィックスとして単純なデータセット名でエンコードする。本稿では,エンコーダがタスク間の一般化を改善するためのプロンプトセットであるコンポジションタスク構成を提案する。これは、モデルがトレーニング中に異なるタスク間で共有知識をより良く学習できるだけでなく、新しい構成を構築することでモデルを制御できることを示している。
論文参考訳（メタデータ） (2022-12-17T02:20:14Z)
Unifying Flow, Stereo and Depth Estimation [121.54066319299261]
本稿では3つの動作と3次元知覚タスクのための統一的な定式化とモデルを提案する。これら3つのタスクを、統一された高密度対応マッチング問題として定式化する。我々のモデルは、モデルアーキテクチャとパラメータがタスク間で共有されているため、自然にクロスタスク転送を可能にします。
論文参考訳（メタデータ） (2022-11-10T18:59:54Z)
How to Sense the World: Leveraging Hierarchy in Multimodal Perception for Robust Reinforcement Learning Agents [9.840104333194663]
我々は表現モデルの設計における階層性を主張し、新しいマルチモーダル表現モデルであるMUSEに貢献する。 MUSEは,アタリゲームにおけるマルチモーダル観察を備えた深層強化学習エージェントの感覚表現モデルである。我々は、強化学習エージェントの異なる設計に関する比較研究を行い、MUSEは、エージェントが最小性能の損失で不完全な知覚経験の下でタスクを実行できることを示した。
論文参考訳（メタデータ） (2021-10-07T16:35:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。