論文の概要: LAVA: Label-efficient Visual Learning and Adaptation
- arxiv url: http://arxiv.org/abs/2210.10317v1
- Date: Wed, 19 Oct 2022 06:19:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 14:36:56.691261
- Title: LAVA: Label-efficient Visual Learning and Adaptation
- Title(参考訳): LAVA: ラベル効率のよいビジュアルラーニングと適応
- Authors: Islam Nassar, Munawar Hayat, Ehsan Abbasnejad, Hamid Rezatofighi,
Mehrtash Harandi, Gholamreza Haffari
- Abstract要約: LAVAは最近のイノベーションに基づいて、クラスとドメインのシフトを伴う部分的にラベル付けされたデータセットへの適応を可能にする。
ソースデータセット上で自己教師付き視覚表現を学び、クラスラベルセマンティクスを使用してそれらをグラウンドする。
マルチクロップ拡張を用いて高強な擬似ラベルを得る新しい手法により、未ラベルのターゲットデータから得られるゲインを最大化する。
- 参考スコア(独自算出の注目度): 68.81393748253325
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present LAVA, a simple yet effective method for multi-domain visual
transfer learning with limited data. LAVA builds on a few recent innovations to
enable adapting to partially labelled datasets with class and domain shifts.
First, LAVA learns self-supervised visual representations on the source dataset
and ground them using class label semantics to overcome transfer collapse
problems associated with supervised pretraining. Secondly, LAVA maximises the
gains from unlabelled target data via a novel method which uses multi-crop
augmentations to obtain highly robust pseudo-labels. By combining these
ingredients, LAVA achieves a new state-of-the-art on ImageNet semi-supervised
protocol, as well as on 7 out of 10 datasets in multi-domain few-shot learning
on the Meta-dataset. Code and models are made available.
- Abstract(参考訳): 本稿では,限られたデータを用いた多領域視覚伝達学習のための簡易かつ効果的なLAVAを提案する。
LAVAは、クラスとドメインシフトを伴う部分的にラベル付けされたデータセットへの適応を可能にする、最近のいくつかのイノベーションの上に構築されている。
まず、lavasはソースデータセットで自己教師付きビジュアル表現を学び、クラスラベルセマンティクスを使用して教師付き事前トレーニングに関連する転送崩壊問題を克服する。
第二に、LAVAは、マルチクロップ拡張を用いて、高度に堅牢な擬似ラベルを得る新しい手法により、未ラベルのターゲットデータから得られるゲインを最大化する。
これらの材料を組み合わせることで、lavasはimagenet semi-supervisedプロトコルの新たな最先端を実現すると同時に、メタデータセット上のマルチドメインの少数ショット学習における10のデータセットのうち7つを達成する。
コードとモデルは利用可能である。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Rethinking Transformers Pre-training for Multi-Spectral Satellite
Imagery [78.43828998065071]
教師なし学習の最近の進歩は、下流タスクにおける有望な結果を達成するための大きな視覚モデルの可能性を示している。
このような事前学習技術は、大量の未学習データが利用可能であることから、リモートセンシング領域でも最近研究されている。
本稿では,マルチモーダルで効果的に活用されるマルチスケール情報の事前学習と活用について述べる。
論文 参考訳(メタデータ) (2024-03-08T16:18:04Z) - All in One and One for All: A Simple yet Effective Method towards Cross-domain Graph Pretraining [18.955565096212183]
大規模言語モデル (LLM) はコンピュータビジョン (CV) と自然言語処理 (NLP) の分野に革命をもたらした。
LLMの最も注目すべき進歩の1つは、単一のモデルが複数のドメインにまたがる広範囲で多様なデータセットでトレーニングされていることである。
論文 参考訳(メタデータ) (2024-02-15T09:55:39Z) - Multi-View Class Incremental Learning [57.14644913531313]
マルチビュー学習(MVL)は、下流タスクのパフォーマンスを改善するためにデータセットの複数の視点から情報を統合することで大きな成功を収めている。
本稿では,複数視点クラスインクリメンタルラーニング(MVCIL)と呼ばれる新しいパラダイムについて考察する。
論文 参考訳(メタデータ) (2023-06-16T08:13:41Z) - CLIP-VG: Self-paced Curriculum Adapting of CLIP for Visual Grounding [86.79903269137971]
擬似ラベルを用いて地域を特定するために、教師なしの視覚的接地法が開発された。
CLIP-VG は,CLIP を擬似言語ラベルに適応させる手法である。
提案手法は,RefCOCO/+/gデータセットにおいて,最先端の教師なし手法よりも有意差がある。
論文 参考訳(メタデータ) (2023-05-15T14:42:02Z) - Adversarial Knowledge Transfer from Unlabeled Data [62.97253639100014]
本稿では,インターネット規模の未ラベルデータから知識を伝達し,分類器の性能を向上させるための新しいAdversarial Knowledge Transferフレームワークを提案する。
我々の手法の重要な新しい側面は、ラベル付けされていないソースデータは、ラベル付けされたターゲットデータと異なるクラスであることができ、個別のプリテキストタスクを定義する必要がないことである。
論文 参考訳(メタデータ) (2020-08-13T08:04:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。