論文の概要: X-Learner: Learning Cross Sources and Tasks for Universal Visual
Representation
- arxiv url: http://arxiv.org/abs/2203.08764v1
- Date: Wed, 16 Mar 2022 17:23:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-17 13:46:26.897405
- Title: X-Learner: Learning Cross Sources and Tasks for Universal Visual
Representation
- Title(参考訳): X-Learner: ユニバーサルビジュアル表現のためのクロスソースとタスクを学ぶ
- Authors: Yinan He, Gengshi Huang, Siyu Chen, Jianing Teng, Wang Kun, Zhenfei
Yin, Lu Sheng, Ziwei Liu, Yu Qiao, Jing Shao
- Abstract要約: 本稿では,X-Learnerという表現学習フレームワークを提案する。
X-Learnerは、様々なソースによって管理される複数の視覚タスクの普遍的な特徴を学習する。
X-Learnerは、追加のアノテーションやモダリティ、計算コストを使わずに、様々なタスクで強力なパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 71.51719469058666
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In computer vision, pre-training models based on largescale supervised
learning have been proven effective over the past few years. However, existing
works mostly focus on learning from individual task with single data source
(e.g., ImageNet for classification or COCO for detection). This restricted form
limits their generalizability and usability due to the lack of vast semantic
information from various tasks and data sources. Here, we demonstrate that
jointly learning from heterogeneous tasks and multiple data sources contributes
to universal visual representation, leading to better transferring results of
various downstream tasks. Thus, learning how to bridge the gaps among different
tasks and data sources is the key, but it still remains an open question. In
this work, we propose a representation learning framework called X-Learner,
which learns the universal feature of multiple vision tasks supervised by
various sources, with expansion and squeeze stage: 1) Expansion Stage:
X-Learner learns the task-specific feature to alleviate task interference and
enrich the representation by reconciliation layer. 2) Squeeze Stage: X-Learner
condenses the model to a reasonable size and learns the universal and
generalizable representation for various tasks transferring. Extensive
experiments demonstrate that X-Learner achieves strong performance on different
tasks without extra annotations, modalities and computational costs compared to
existing representation learning methods. Notably, a single X-Learner model
shows remarkable gains of 3.0%, 3.3% and 1.8% over current pretrained models on
12 downstream datasets for classification, object detection and semantic
segmentation.
- Abstract(参考訳): コンピュータビジョンでは、大規模な教師付き学習に基づく事前学習モデルがここ数年で有効であることが証明されている。
しかし、既存の研究は主に個々のタスクから単一のデータソース(分類のためのImageNetや検出のためのCOCOなど)で学習することに焦点を当てている。
この制限された形式は、様々なタスクやデータソースからの膨大な意味情報の欠如により、その汎用性とユーザビリティを制限する。
ここでは、異種タスクと複数のデータソースからの共同学習が普遍的な視覚表現に寄与し、様々な下流タスクの転送結果がより良くなることを示す。
このようにして、さまざまなタスクとデータソース間のギャップを橋渡しする方法を学ぶことが鍵となるが、それでもまだ疑問は残されている。
本稿では,様々な情報源が監督する複数の視覚課題の普遍的特徴を学習し,拡張と絞り込みの段階を学習する表現学習フレームワークであるx-learnerを提案する。
1)拡張段階:X-Learnerはタスク固有の特徴を学習し,タスク干渉を緩和し,和解層による表現を充実させる。
2) スクイーズステージ: x-learnerはモデルを合理的なサイズに凝縮し、様々なタスク転送の普遍的で一般化可能な表現を学ぶ。
X-Learnerは、既存の表現学習法と比較して、余分なアノテーションやモダリティ、計算コストを伴わずに、様々なタスクにおいて高いパフォーマンスを達成することを示した。
特に、単一のX-Learnerモデルは、分類、オブジェクト検出、セマンティックセグメンテーションのための12の下流データセット上の現在の事前訓練モデルよりも3.0%、3.3%、および1.8%の顕著な増加を示している。
関連論文リスト
- Distribution Matching for Multi-Task Learning of Classification Tasks: a
Large-Scale Study on Faces & Beyond [62.406687088097605]
マルチタスク学習(MTL)は、複数の関連するタスクを共同で学習し、共有表現空間から恩恵を受けるフレームワークである。
MTLは、ほとんど重複しない、あるいは重複しないアノテーションで分類タスクで成功することを示す。
本稿では,分散マッチングによるタスク間の知識交換を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-02T14:18:11Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - Multimodal Masked Autoencoders Learn Transferable Representations [127.35955819874063]
単純でスケーラブルなネットワークアーキテクチャであるM3AE(Multimodal Masked Autoencoder)を提案する。
M3AEは、マスク付きトークン予測により、視覚と言語データの両方の統一エンコーダを学習する。
我々は,大規模な画像テキストデータセット上で訓練されたM3AEについて実証的研究を行い,M3AEが下流タスクによく伝達される一般化可能な表現を学習できることを見出した。
論文 参考訳(メタデータ) (2022-05-27T19:09:42Z) - Active Multi-Task Representation Learning [50.13453053304159]
本研究は,アクティブラーニングの手法を活用することで,資源タスクのサンプリングに関する最初の公式な研究を行う。
提案手法は, 対象タスクに対する各ソースタスクの関連性を反復的に推定し, その関連性に基づいて各ソースタスクからサンプルを抽出するアルゴリズムである。
論文 参考訳(メタデータ) (2022-02-02T08:23:24Z) - Factors of Influence for Transfer Learning across Diverse Appearance
Domains and Task Types [50.1843146606122]
現在の最新のコンピュータビジョンモデルでは、簡単な転送学習が一般的です。
転校学習に関するこれまでの体系的な研究は限られており、作業が期待される状況は十分に理解されていない。
本論文では,非常に異なる画像領域にまたがる転送学習の広範な実験的研究を行う。
論文 参考訳(メタデータ) (2021-03-24T16:24:20Z) - Two-Level Adversarial Visual-Semantic Coupling for Generalized Zero-shot
Learning [21.89909688056478]
トレーニング中に推論ネットワークを用いて生成ネットワークを増強する2段階のジョイントアイデアを提案する。
これにより、ビジュアルドメインとセマンティックドメイン間の効果的な知識伝達のための強力な相互モーダル相互作用が提供される。
提案手法は,4つのベンチマークデータセットに対して,いくつかの最先端手法に対して評価し,その性能を示す。
論文 参考訳(メタデータ) (2020-07-15T15:34:09Z) - Reducing Overlearning through Disentangled Representations by
Suppressing Unknown Tasks [8.517620051440005]
視覚的特徴を学習するための既存のディープラーニングアプローチは、手元にあるタスクに必要なものよりも、過剰に学習し、より多くの情報を抽出する傾向がある。
プライバシー保護の観点からは、入力された視覚情報はモデルから保護されない。
未知のタスクを全て抑制することで、モデルオーバーラーニングを減らすためのモデル非依存のソリューションを提案する。
論文 参考訳(メタデータ) (2020-05-20T17:31:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。