論文の概要: Improving task-specific representation via 1M unlabelled images without
any extra knowledge
- arxiv url: http://arxiv.org/abs/2006.13919v1
- Date: Wed, 24 Jun 2020 17:49:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 09:40:56.802402
- Title: Improving task-specific representation via 1M unlabelled images without
any extra knowledge
- Title(参考訳): 余分な知識のない1mアンラベル画像によるタスク固有表現の改善
- Authors: Aayush Bansal
- Abstract要約: 余分な知識を伴わずに100万枚の未表示画像を活用することで,タスク固有の表現を改善するケーススタディを提案する。
本研究は,1枚の画像から表面正規化とセマンティックセグメンテーションの課題について広範囲に研究した。
- 参考スコア(独自算出の注目度): 8.9598796481325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a case-study to improve the task-specific representation by
leveraging a million unlabelled images without any extra knowledge. We propose
an exceedingly simple method of conditioning an existing representation on a
diverse data distribution and observe that a model trained on diverse examples
acts as a better initialization. We extensively study our findings for the task
of surface normal estimation and semantic segmentation from a single image. We
improve surface normal estimation on NYU-v2 depth dataset and semantic
segmentation on PASCAL VOC by 4% over base model. We did not use any
task-specific knowledge or auxiliary tasks, neither changed hyper-parameters
nor made any modification in the underlying neural network architecture.
- Abstract(参考訳): 余分な知識を伴わずに100万枚の未表示画像を活用することでタスク固有の表現を改善するケーススタディを提案する。
多様なデータ分布に既存の表現を条件付けする非常に単純な手法を提案し、多様な例で訓練されたモデルがより良い初期化として機能することを観察する。
本研究は,1枚の画像から表面正規化とセマンティックセグメンテーションの課題について検討した。
nyu-v2深度データセットの表面正規推定とpascal vocの意味セグメンテーションをベースモデル上で4%改善する。
タスク固有の知識や補助タスクは使用せず、ハイパーパラメータの変更も、基盤となるニューラルネットワークアーキテクチャの変更も行いません。
関連論文リスト
- Distribution Matching for Multi-Task Learning of Classification Tasks: a
Large-Scale Study on Faces & Beyond [62.406687088097605]
マルチタスク学習(MTL)は、複数の関連するタスクを共同で学習し、共有表現空間から恩恵を受けるフレームワークである。
MTLは、ほとんど重複しない、あるいは重複しないアノテーションで分類タスクで成功することを示す。
本稿では,分散マッチングによるタスク間の知識交換を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-02T14:18:11Z) - Substance or Style: What Does Your Image Embedding Know? [55.676463077772866]
画像基盤モデルは、主にセマンティックコンテンツとして評価されている。
画像のスタイル,品質,自然および人工的な変換など,多数の軸に沿った埋め込みの視覚的内容を測定する。
画像テキストモデル (CLIP と ALIGN) はマスキングベースモデル (CAN と MAE) よりもスタイル転送の新しい例を認識するのが得意である。
論文 参考訳(メタデータ) (2023-07-10T22:40:10Z) - Leveraging sparse and shared feature activations for disentangled
representation learning [112.22699167017471]
本稿では,教師付きタスクの多種多様な集合から抽出した知識を活用し,共通不整合表現を学習することを提案する。
我々は6つの実世界分布シフトベンチマークと異なるデータモダリティに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-04-17T01:33:24Z) - DPPMask: Masked Image Modeling with Determinantal Point Processes [49.65141962357528]
Masked Image Modeling (MIM)は、ランダムにマスキングされた画像の再構成を目的として、印象的な代表的性能を達成した。
先行研究で広く使われている一様ランダムマスキングは、必然的にいくつかの重要なオブジェクトを失い、元のセマンティック情報を変更する。
この問題に対処するため、MIMを新しいマスキング戦略であるDPPMaskで強化する。
提案手法は単純だが有効であり,様々なフレームワークで実装される場合,余分に学習可能なパラメータは不要である。
論文 参考訳(メタデータ) (2023-03-13T13:40:39Z) - AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation [86.44683367028914]
航空画像のセグメンテーションにはいくつかの独特な課題があり、中でも最も重要なものは前景と背景のアンバランスにある。
本稿では,階層的なセグメンテーション手法を採用し,マルチスケール表現を適応的に活用するAdaptive Focus Framework (AF$)を提案する。
AF$は、広く使われている3つの航空ベンチマークの精度を大幅に改善した。
論文 参考訳(メタデータ) (2022-02-18T10:14:45Z) - A Contrastive Distillation Approach for Incremental Semantic
Segmentation in Aerial Images [15.75291664088815]
現在のディープニューラルアーキテクチャに関する大きな問題は、破滅的な忘れこととして知られている。
我々は、任意の入力を拡張バージョンと比較する、対照的な正則化を提案する。
私たちは、Potsdamデータセットにおけるソリューションの有効性を示し、各テストにおけるインクリメンタルベースラインよりも優れています。
論文 参考訳(メタデータ) (2021-12-07T16:44:45Z) - Empirical Study of Multi-Task Hourglass Model for Semantic Segmentation
Task [0.7614628596146599]
エッジ検出, 意味輪郭, 距離変換タスクを用いて, セマンティックセグメンテーションタスクを補完するマルチタスク手法を提案する。
本研究では,Cityscapes,CamVid,Freiburg Forestの各データセットにおける時間ガラスモデルのマルチタスク環境における学習の有効性を示す。
論文 参考訳(メタデータ) (2021-05-28T01:08:10Z) - CutPaste: Self-Supervised Learning for Anomaly Detection and
Localization [59.719925639875036]
通常のトレーニングデータのみを用いて異常検知器を構築するためのフレームワークを提案する。
まず、自己教師付き深層表現を学習し、学習した表現の上に生成的1クラス分類器を構築する。
MVTec異常検出データセットに関する実証研究は,提案アルゴリズムが実世界の様々な欠陥を検出可能であることを実証している。
論文 参考訳(メタデータ) (2021-04-08T19:04:55Z) - Complementing Representation Deficiency in Few-shot Image
Classification: A Meta-Learning Approach [27.350615059290348]
本稿では,MCRNetを用いたメタラーニング手法を提案する。
特に、潜時空間を埋め込んで、潜時符号を余分な表現情報で再構成し、表現不足を補完する。
我々のエンドツーエンドフレームワークは、3つの標準的な数ショット学習データセット上の画像分類における最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-07-21T13:25:54Z) - Analyzing Visual Representations in Embodied Navigation Tasks [45.35107294831313]
我々は、最近提案されたプロジェクション重み付き正準相関解析(PWCCA)を用いて、異なるタスクを実行することで、同じ環境で学習した視覚的表現の類似度を測定する。
次に、あるタスクで学習した視覚的表現が、別のタスクに効果的に転送できることを実証的に示す。
論文 参考訳(メタデータ) (2020-03-12T19:43:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。