論文の概要: X-Learner: Learning Cross Sources and Tasks for Universal Visual
Representation
- arxiv url: http://arxiv.org/abs/2203.08764v1
- Date: Wed, 16 Mar 2022 17:23:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-17 13:46:26.897405
- Title: X-Learner: Learning Cross Sources and Tasks for Universal Visual
Representation
- Title(参考訳): X-Learner: ユニバーサルビジュアル表現のためのクロスソースとタスクを学ぶ
- Authors: Yinan He, Gengshi Huang, Siyu Chen, Jianing Teng, Wang Kun, Zhenfei
Yin, Lu Sheng, Ziwei Liu, Yu Qiao, Jing Shao
- Abstract要約: 本稿では,X-Learnerという表現学習フレームワークを提案する。
X-Learnerは、様々なソースによって管理される複数の視覚タスクの普遍的な特徴を学習する。
X-Learnerは、追加のアノテーションやモダリティ、計算コストを使わずに、様々なタスクで強力なパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 71.51719469058666
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In computer vision, pre-training models based on largescale supervised
learning have been proven effective over the past few years. However, existing
works mostly focus on learning from individual task with single data source
(e.g., ImageNet for classification or COCO for detection). This restricted form
limits their generalizability and usability due to the lack of vast semantic
information from various tasks and data sources. Here, we demonstrate that
jointly learning from heterogeneous tasks and multiple data sources contributes
to universal visual representation, leading to better transferring results of
various downstream tasks. Thus, learning how to bridge the gaps among different
tasks and data sources is the key, but it still remains an open question. In
this work, we propose a representation learning framework called X-Learner,
which learns the universal feature of multiple vision tasks supervised by
various sources, with expansion and squeeze stage: 1) Expansion Stage:
X-Learner learns the task-specific feature to alleviate task interference and
enrich the representation by reconciliation layer. 2) Squeeze Stage: X-Learner
condenses the model to a reasonable size and learns the universal and
generalizable representation for various tasks transferring. Extensive
experiments demonstrate that X-Learner achieves strong performance on different
tasks without extra annotations, modalities and computational costs compared to
existing representation learning methods. Notably, a single X-Learner model
shows remarkable gains of 3.0%, 3.3% and 1.8% over current pretrained models on
12 downstream datasets for classification, object detection and semantic
segmentation.
- Abstract(参考訳): コンピュータビジョンでは、大規模な教師付き学習に基づく事前学習モデルがここ数年で有効であることが証明されている。
しかし、既存の研究は主に個々のタスクから単一のデータソース(分類のためのImageNetや検出のためのCOCOなど)で学習することに焦点を当てている。
この制限された形式は、様々なタスクやデータソースからの膨大な意味情報の欠如により、その汎用性とユーザビリティを制限する。
ここでは、異種タスクと複数のデータソースからの共同学習が普遍的な視覚表現に寄与し、様々な下流タスクの転送結果がより良くなることを示す。
このようにして、さまざまなタスクとデータソース間のギャップを橋渡しする方法を学ぶことが鍵となるが、それでもまだ疑問は残されている。
本稿では,様々な情報源が監督する複数の視覚課題の普遍的特徴を学習し,拡張と絞り込みの段階を学習する表現学習フレームワークであるx-learnerを提案する。
1)拡張段階:X-Learnerはタスク固有の特徴を学習し,タスク干渉を緩和し,和解層による表現を充実させる。
2) スクイーズステージ: x-learnerはモデルを合理的なサイズに凝縮し、様々なタスク転送の普遍的で一般化可能な表現を学ぶ。
X-Learnerは、既存の表現学習法と比較して、余分なアノテーションやモダリティ、計算コストを伴わずに、様々なタスクにおいて高いパフォーマンスを達成することを示した。
特に、単一のX-Learnerモデルは、分類、オブジェクト検出、セマンティックセグメンテーションのための12の下流データセット上の現在の事前訓練モデルよりも3.0%、3.3%、および1.8%の顕著な増加を示している。
関連論文リスト
- A Multitask Deep Learning Model for Classification and Regression of Hyperspectral Images: Application to the large-scale dataset [44.94304541427113]
ハイパースペクトル画像上で複数の分類タスクと回帰タスクを同時に行うマルチタスク深層学習モデルを提案する。
我々は、TAIGAと呼ばれる大規模なハイパースペクトルデータセットに対するアプローチを検証した。
結果の総合的定性的および定量的分析により,提案手法が他の最先端手法よりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2024-07-23T11:14:54Z) - Less is More: High-value Data Selection for Visual Instruction Tuning [127.38740043393527]
本稿では,視覚的命令データの冗長性を排除し,トレーニングコストを削減するために,高価値なデータ選択手法TIVEを提案する。
約15%のデータしか使用していない我々のアプローチは、8つのベンチマークで全データ微調整モデルに匹敵する平均性能を実現することができる。
論文 参考訳(メタデータ) (2024-03-14T16:47:25Z) - Distribution Matching for Multi-Task Learning of Classification Tasks: a
Large-Scale Study on Faces & Beyond [62.406687088097605]
マルチタスク学習(MTL)は、複数の関連するタスクを共同で学習し、共有表現空間から恩恵を受けるフレームワークである。
MTLは、ほとんど重複しない、あるいは重複しないアノテーションで分類タスクで成功することを示す。
本稿では,分散マッチングによるタスク間の知識交換を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-02T14:18:11Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - Active Multi-Task Representation Learning [50.13453053304159]
本研究は,アクティブラーニングの手法を活用することで,資源タスクのサンプリングに関する最初の公式な研究を行う。
提案手法は, 対象タスクに対する各ソースタスクの関連性を反復的に推定し, その関連性に基づいて各ソースタスクからサンプルを抽出するアルゴリズムである。
論文 参考訳(メタデータ) (2022-02-02T08:23:24Z) - Factors of Influence for Transfer Learning across Diverse Appearance
Domains and Task Types [50.1843146606122]
現在の最新のコンピュータビジョンモデルでは、簡単な転送学習が一般的です。
転校学習に関するこれまでの体系的な研究は限られており、作業が期待される状況は十分に理解されていない。
本論文では,非常に異なる画像領域にまたがる転送学習の広範な実験的研究を行う。
論文 参考訳(メタデータ) (2021-03-24T16:24:20Z) - Two-Level Adversarial Visual-Semantic Coupling for Generalized Zero-shot
Learning [21.89909688056478]
トレーニング中に推論ネットワークを用いて生成ネットワークを増強する2段階のジョイントアイデアを提案する。
これにより、ビジュアルドメインとセマンティックドメイン間の効果的な知識伝達のための強力な相互モーダル相互作用が提供される。
提案手法は,4つのベンチマークデータセットに対して,いくつかの最先端手法に対して評価し,その性能を示す。
論文 参考訳(メタデータ) (2020-07-15T15:34:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。