論文の概要: Meta Self-Learning for Multi-Source Domain Adaptation: A Benchmark
- arxiv url: http://arxiv.org/abs/2108.10840v1
- Date: Tue, 24 Aug 2021 17:07:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-25 14:28:06.723968
- Title: Meta Self-Learning for Multi-Source Domain Adaptation: A Benchmark
- Title(参考訳): マルチソースドメイン適応のためのメタ自己学習:ベンチマーク
- Authors: Shuhao Qiu, Chuang Zhu, Wenli Zhou
- Abstract要約: 近年,ディープラーニングに基づく手法は,コンピュータビジョン領域において有望な結果を示している。
一般的なディープラーニングモデルは大量のラベル付きデータを必要とします。
本稿では,メタ学習パラダイムと自己学習手法を組み合わせたメタ自己学習手法を提案する。
- 参考スコア(独自算出の注目度): 3.6248855491320016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, deep learning-based methods have shown promising results in
computer vision area. However, a common deep learning model requires a large
amount of labeled data, which is labor-intensive to collect and label. What's
more, the model can be ruined due to the domain shift between training data and
testing data. Text recognition is a broadly studied field in computer vision
and suffers from the same problems noted above due to the diversity of fonts
and complicated backgrounds. In this paper, we focus on the text recognition
problem and mainly make three contributions toward these problems. First, we
collect a multi-source domain adaptation dataset for text recognition,
including five different domains with over five million images, which is the
first multi-domain text recognition dataset to our best knowledge. Secondly, we
propose a new method called Meta Self-Learning, which combines the
self-learning method with the meta-learning paradigm and achieves a better
recognition result under the scene of multi-domain adaptation. Thirdly,
extensive experiments are conducted on the dataset to provide a benchmark and
also show the effectiveness of our method. The code of our work and dataset are
available soon at https://bupt-ai-cz.github.io/Meta-SelfLearning/.
- Abstract(参考訳): 近年、深層学習に基づく手法がコンピュータビジョンの分野で有望な結果を示している。
しかし、一般的なディープラーニングモデルは大量のラベル付きデータを必要とするため、収集とラベル付けに手間がかかる。
さらに、トレーニングデータとテストデータの間のドメインシフトによって、モデルは破壊される可能性があります。
テキスト認識はコンピュータビジョンにおいて広く研究されている分野であり、フォントの多様性と複雑な背景により上記の問題に苦しめられている。
本稿では,テキスト認識問題に着目し,これらの問題に対して3つの貢献を行う。
まず、500万以上の画像を持つ5つの異なるドメインを含む、テキスト認識のためのマルチソースドメイン適応データセットを収集します。
次に,メタ自己学習手法とメタ学習パラダイムを組み合わせたメタ自己学習手法を提案する。
第3に,ベンチマークを提供するためにデータセット上で広範な実験を行い,本手法の有効性を示す。
私たちの仕事とデータセットのコードは、すぐにhttps://bupt-ai-cz.github.io/meta-selflearning/で入手できる。
関連論文リスト
- M3: A Multi-Task Mixed-Objective Learning Framework for Open-Domain Multi-Hop Dense Sentence Retrieval [12.277521531556852]
M3は,高密度テキスト表現学習のためのマルチタスク混合オブジェクトに基づく,新しいマルチホップ高密度文検索システムである。
提案手法は,大規模オープンドメイン事実検証ベンチマークデータセットであるFEVER上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-21T01:52:07Z) - CDFSL-V: Cross-Domain Few-Shot Learning for Videos [58.37446811360741]
ビデオのアクション認識は、いくつかのラベル付き例でのみ、新しいカテゴリを認識するための効果的なアプローチである。
既存のビデオアクション認識の方法は、同じドメインからの大きなラベル付きデータセットに依存している。
本稿では,自己教師付き学習とカリキュラム学習を活用した,クロスドメインな数ショットビデオ行動認識手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T19:44:27Z) - CSSL-MHTR: Continual Self-Supervised Learning for Scalable Multi-script Handwritten Text Recognition [16.987008461171065]
我々は,手書き文字認識における破滅的な忘れの問題を軽減するために,連続的な自己指導型学習の可能性を探究する。
提案手法は,各タスクにアダプタと呼ばれる中間層を追加し,現在のタスクを学習しながら,前モデルからの知識を効率的に抽出する。
私たちは英語、イタリア語、ロシア語のスクリプトで最先端のパフォーマンスを達成しましたが、タスクごとにいくつかのパラメータしか追加していません。
論文 参考訳(メタデータ) (2023-03-16T14:27:45Z) - Using Language to Extend to Unseen Domains [81.37175826824625]
ビジョンモデルがデプロイ時に遭遇する可能性のあるすべてのドメインのトレーニングデータを集めることは、費用がかかる。
トレーニングドメインと拡張したいが、堅牢性を改善するためのデータを持っていないドメインを、いかに単純に言葉で表現するかを考えます。
共同画像と言語埋め込み空間を備えたマルチモーダルモデルを用いて、LADSはトレーニング領域から各未確認テスト領域への画像埋め込みの変換を学習する。
論文 参考訳(メタデータ) (2022-10-18T01:14:02Z) - Multimodal Masked Autoencoders Learn Transferable Representations [127.35955819874063]
単純でスケーラブルなネットワークアーキテクチャであるM3AE(Multimodal Masked Autoencoder)を提案する。
M3AEは、マスク付きトークン予測により、視覚と言語データの両方の統一エンコーダを学習する。
我々は,大規模な画像テキストデータセット上で訓練されたM3AEについて実証的研究を行い,M3AEが下流タスクによく伝達される一般化可能な表現を学習できることを見出した。
論文 参考訳(メタデータ) (2022-05-27T19:09:42Z) - CLMLF:A Contrastive Learning and Multi-Layer Fusion Method for
Multimodal Sentiment Detection [24.243349217940274]
マルチモーダル感情検出のためのコントラスト学習・多層融合法(CLMLF)を提案する。
具体的には、まずテキストと画像をエンコードして隠れ表現を取得し、次に多層融合モジュールを使用してテキストと画像のトークンレベルの特徴を整列し、融合する。
また、感情分析タスクに加えて、ラベルベースコントラスト学習とデータベースコントラスト学習という2つのコントラスト学習タスクを設計した。
論文 参考訳(メタデータ) (2022-04-12T04:03:06Z) - Text-Based Person Search with Limited Data [66.26504077270356]
テキストベースの人物検索(TBPS)は、画像ギャラリーから対象人物を記述的なテキストクエリで検索することを目的としている。
限られたデータによってもたらされる問題に対処する2つの新しいコンポーネントを持つフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:20:47Z) - Domain Adaptive Semantic Segmentation without Source Data [50.18389578589789]
モデルがソースドメイン上で事前学習されていることを前提として、ソースデータのないドメイン適応セマンティックセマンティックセマンティックセマンティクスについて検討する。
本稿では,この課題に対して,肯定的学習と否定的学習という2つの要素を用いた効果的な枠組みを提案する。
私たちのフレームワークは、パフォーマンスをさらに向上するために、他のメソッドに簡単に実装および組み込むことができます。
論文 参考訳(メタデータ) (2021-10-13T04:12:27Z) - Universal Representation Learning from Multiple Domains for Few-shot
Classification [41.821234589075445]
複数の個別に訓練されたネットワークの知識を蒸留し,一組の普遍的な深層表現を学習することを提案する。
より効率的な適応ステップにより、未確認領域に対する普遍表現をさらに洗練できることが示される。
論文 参考訳(メタデータ) (2021-03-25T13:49:12Z) - Machine learning with limited data [1.2183405753834562]
我々は少数のショット画像分類を研究するが、我々はごく少数のラベル付きデータしか持っていない。
一つの方法は、これらの画像のスタイルを混ぜて画像の特徴を強化することです。
第2の方法は、画像のパッチ間の関係を探索するために空間的注意を適用することである。
論文 参考訳(メタデータ) (2021-01-18T17:10:39Z) - A Review of Single-Source Deep Unsupervised Visual Domain Adaptation [81.07994783143533]
大規模ラベル付きトレーニングデータセットにより、ディープニューラルネットワークは、幅広いベンチマークビジョンタスクを拡張できるようになった。
多くのアプリケーションにおいて、大量のラベル付きデータを取得するのは非常に高価で時間を要する。
限られたラベル付きトレーニングデータに対処するため、大規模ラベル付きソースドメインでトレーニングされたモデルを、疎ラベルまたは未ラベルのターゲットドメインに直接適用しようと試みている人も多い。
論文 参考訳(メタデータ) (2020-09-01T00:06:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。