論文の概要: Semi-supervised Learning with a Teacher-student Network for Generalized
Attribute Prediction
- arxiv url: http://arxiv.org/abs/2007.06769v1
- Date: Tue, 14 Jul 2020 02:06:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 14:43:45.989350
- Title: Semi-supervised Learning with a Teacher-student Network for Generalized
Attribute Prediction
- Title(参考訳): 一般属性予測のための教師学生ネットワークによる半教師付き学習
- Authors: Minchul Shin
- Abstract要約: 本稿では,視覚特性予測問題を解くための半教師付き学習について述べる。
提案手法は,ファッション属性予測のための様々なベンチマーク上での競合性能を実現する。
- 参考スコア(独自算出の注目度): 7.462336024223667
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a study on semi-supervised learning to solve the visual
attribute prediction problem. In many applications of vision algorithms, the
precise recognition of visual attributes of objects is important but still
challenging. This is because defining a class hierarchy of attributes is
ambiguous, so training data inevitably suffer from class imbalance and label
sparsity, leading to a lack of effective annotations. An intuitive solution is
to find a method to effectively learn image representations by utilizing
unlabeled images. With that in mind, we propose a multi-teacher-single-student
(MTSS) approach inspired by the multi-task learning and the distillation of
semi-supervised learning. Our MTSS learns task-specific domain experts called
teacher networks using the label embedding technique and learns a unified model
called a student network by forcing a model to mimic the distributions learned
by domain experts. Our experiments demonstrate that our method not only
achieves competitive performance on various benchmarks for fashion attribute
prediction, but also improves robustness and cross-domain adaptability for
unseen domains.
- Abstract(参考訳): 本稿では,視覚特性予測問題を解くための半教師付き学習について述べる。
視覚アルゴリズムの多くの応用において、物体の視覚特性の正確な認識は重要であるが、それでも難しい。
これは属性のクラス階層の定義があいまいであるため、トレーニングデータは必然的にクラスの不均衡とラベルのスパーシティに苦しむため、効果的なアノテーションが欠如している。
直感的な解決策は、ラベルのない画像を利用して画像表現を効果的に学習する方法を見つけることである。
そこで本研究では,マルチタスク学習と半教師学習の蒸留に触発されたマルチティーチャー・シングルスチューデント(mtss)アプローチを提案する。
我々のMTSSはラベル埋め込み技術を用いて教師ネットワークと呼ばれるタスク固有のドメインエキスパートを学習し、モデルにドメインエキスパートが学習した分布を模倣するように強制することで学生ネットワークと呼ばれる統一モデルを学ぶ。
提案手法は, ファッション属性予測のための様々なベンチマークにおいて, 競争性能を達成するだけでなく, ドメイン間適応性やロバスト性も向上することを示した。
関連論文リスト
- Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - Mixture of Self-Supervised Learning [2.191505742658975]
自己教師型学習は、特定のタスクに適用される前にモデル上でトレーニングされるプレテキストタスクを使用することで機能する。
従来の研究では、プリテキストタスクとして1つのタイプの変換しか使用されていなかった。
これにより、複数のプリテキストタスクが使用されているかどうか、すべてのプリテキストタスクを組み合わせるためにゲーティングネットワークを使用するかどうか、という疑問が持ち上がる。
論文 参考訳(メタデータ) (2023-07-27T14:38:32Z) - Learning Transferable Pedestrian Representation from Multimodal
Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。
まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。
次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文 参考訳(メタデータ) (2023-04-12T01:20:58Z) - DUET: Cross-modal Semantic Grounding for Contrastive Zero-shot Learning [37.48292304239107]
本稿では, DUET という変換器を用いたエンドツーエンドZSL手法を提案する。
画像からセマンティック属性を分離するモデルの能力を調べるために,モーダルなセマンティックグラウンドネットワークを開発した。
DUETは、しばしば最先端のパフォーマンスを達成することができ、そのコンポーネントは有効であり、予測は解釈可能である。
論文 参考訳(メタデータ) (2022-07-04T11:12:12Z) - Attribute Prototype Network for Any-Shot Learning [113.50220968583353]
属性ローカライズ機能を統合した画像表現は、任意のショット、すなわちゼロショットと少数ショットのイメージ分類タスクに有用である、と我々は主張する。
クラスレベルの属性のみを用いてグローバルな特徴とローカルな特徴を共同で学習する新しい表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-04T02:25:40Z) - Graph Consistency based Mean-Teaching for Unsupervised Domain Adaptive
Person Re-Identification [54.58165777717885]
本論文では,教師ネットワークと学生ネットワークの間にGCC(Graph Consistency Constraint)を構築するためのGCMT(Graph Consistency Based Mean-Teaching)手法を提案する。
マーケット-1501、デュークMTMCreID、MSMT17の3つのデータセットの実験により、提案されたGCMTは最先端の手法よりも明確なマージンで優れていることが示された。
論文 参考訳(メタデータ) (2021-05-11T04:09:49Z) - Distribution Alignment: A Unified Framework for Long-tail Visual
Recognition [52.36728157779307]
長尾視覚認識のための分散アライメント戦略を提案する。
次に,二段階学習における一般化された再重み付け法を導入して,事前のクラスバランスをとる。
提案手法は, 4つの認識タスクすべてにおいて, 単純で統一されたフレームワークを用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-03-30T14:09:53Z) - Can Semantic Labels Assist Self-Supervised Visual Representation
Learning? [194.1681088693248]
近隣環境におけるコントラスト調整(SCAN)という新しいアルゴリズムを提案する。
一連のダウンストリームタスクにおいて、SCANは従来の完全教師付きおよび自己教師付きメソッドよりも優れたパフォーマンスを達成する。
本研究は, セマンティックラベルが自己指導的手法の補助に有用であることを明らかにする。
論文 参考訳(メタデータ) (2020-11-17T13:25:00Z) - Region Comparison Network for Interpretable Few-shot Image
Classification [97.97902360117368]
新しいクラスのモデルをトレーニングするために、ラベル付きサンプルの限られた数だけを効果的に活用するための画像分類が提案されている。
本研究では,領域比較ネットワーク (RCN) と呼ばれる距離学習に基づく手法を提案する。
また,タスクのレベルからカテゴリへの解釈可能性の一般化も提案する。
論文 参考訳(メタデータ) (2020-09-08T07:29:05Z) - Unsupervised Domain Attention Adaptation Network for Caricature
Attribute Recognition [23.95731281719786]
キャラクチュア属性は、心理学と神経科学の研究に役立つ特徴的な顔の特徴を提供する。
注釈付き画像の量を持つ顔写真属性データセットとは異なり、似顔絵属性のアノテーションは稀である。
本稿では,画像の属性学習のための特徴属性データセットであるWebCariAを提案する。
論文 参考訳(メタデータ) (2020-07-18T06:38:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。