Fugu-MT 論文翻訳(概要): Improving task-specific representation via 1M unlabelled images without any extra knowledge

論文の概要: Improving task-specific representation via 1M unlabelled images without any extra knowledge

arxiv url: http://arxiv.org/abs/2006.13919v1
Date: Wed, 24 Jun 2020 17:49:05 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-17 09:40:56.802402
Title: Improving task-specific representation via 1M unlabelled images without any extra knowledge
Title（参考訳）: 余分な知識のない1mアンラベル画像によるタスク固有表現の改善
Authors: Aayush Bansal
Abstract要約: 余分な知識を伴わずに100万枚の未表示画像を活用することで,タスク固有の表現を改善するケーススタディを提案する。本研究は,1枚の画像から表面正規化とセマンティックセグメンテーションの課題について広範囲に研究した。
参考スコア（独自算出の注目度）: 8.9598796481325
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present a case-study to improve the task-specific representation by leveraging a million unlabelled images without any extra knowledge. We propose an exceedingly simple method of conditioning an existing representation on a diverse data distribution and observe that a model trained on diverse examples acts as a better initialization. We extensively study our findings for the task of surface normal estimation and semantic segmentation from a single image. We improve surface normal estimation on NYU-v2 depth dataset and semantic segmentation on PASCAL VOC by 4% over base model. We did not use any task-specific knowledge or auxiliary tasks, neither changed hyper-parameters nor made any modification in the underlying neural network architecture.
Abstract（参考訳）: 余分な知識を伴わずに100万枚の未表示画像を活用することでタスク固有の表現を改善するケーススタディを提案する。多様なデータ分布に既存の表現を条件付けする非常に単純な手法を提案し、多様な例で訓練されたモデルがより良い初期化として機能することを観察する。本研究は,1枚の画像から表面正規化とセマンティックセグメンテーションの課題について検討した。 nyu-v2深度データセットの表面正規推定とpascal vocの意味セグメンテーションをベースモデル上で4%改善する。タスク固有の知識や補助タスクは使用せず、ハイパーパラメータの変更も、基盤となるニューラルネットワークアーキテクチャの変更も行いません。

関連論文リスト

Task-Adapter++: Task-specific Adaptation with Order-aware Alignment for Few-shot Action Recognition [33.22316608406554]
本稿では,画像エンコーダとテキストエンコーダのパラメータ効率を両立させる手法を提案する。具体的には,画像エンコーダのタスク固有の適応を設計し,特徴抽出時に最も識別性の高い情報をよく認識できるようにする。我々は,視覚的特徴を意味的記述と同じ時間的段階に存在するように積極的にマッピングする,革新的な細粒度クロスモーダルアライメント戦略を開発した。
論文参考訳（メタデータ） (2025-05-09T12:34:10Z)
DICEPTION: A Generalist Diffusion Model for Visual Perceptual Tasks [51.439283251703635]
計算資源やデータトレーニングの限界内で、複数のタスクに対処できる優れた一般認識モデルを作成します。 DICEPTIONが複数の知覚タスクに効果的に取り組み、最先端のモデルと同等の性能を達成していることを示す。異なるインスタンスにランダムな色を割り当てる戦略は、エンティティセグメンテーションとセマンティックセグメンテーションの両方において非常に効果的であることを示す。
論文参考訳（メタデータ） (2025-02-24T13:51:06Z)
Task-Adapter: Task-specific Adaptation of Image Models for Few-shot Action Recognition [34.88916568947695]
簡単なタスク固有適応法(Task-Adapter)を提案する。提案したTask-Adapterをバックボーンの最後のいくつかのレイヤに導入することで、フル微調整によるオーバーフィッティング問題を軽減します。実験結果から,提案したタスクアダプタが標準の4つのアクション認識データセットに対して有効であることを示す。
論文参考訳（メタデータ） (2024-08-01T03:06:56Z)
Comprehensive Generative Replay for Task-Incremental Segmentation with Concurrent Appearance and Semantic Forgetting [49.87694319431288]
一般的なセグメンテーションモデルは、異なる画像ソースからの様々なオブジェクトを含む様々なタスクに対して、ますます好まれている。画像とマスクのペアを合成することで外観と意味の知識を復元する包括的生成(CGR)フレームワークを提案する。漸進的タスク(心身、基礎、前立腺のセグメンテーション)の実験は、同時出現と意味的忘れを緩和する上で、明らかな優位性を示している。
論文参考訳（メタデータ） (2024-06-28T10:05:58Z)
MMEarth: Exploring Multi-Modal Pretext Tasks For Geospatial Representation Learning [9.540487697801531]
MMEarthは、グローバルスケールでの多様なマルチモーダル事前トレーニングデータセットである。光衛星画像の汎用表現を学習するために,MP-MAE(Multi-Pretext Masked Autoencoder)アプローチを提案する。
論文参考訳（メタデータ） (2024-05-04T23:16:48Z)
Distribution Matching for Multi-Task Learning of Classification Tasks: a Large-Scale Study on Faces & Beyond [62.406687088097605]
マルチタスク学習(MTL)は、複数の関連するタスクを共同で学習し、共有表現空間から恩恵を受けるフレームワークである。 MTLは、ほとんど重複しない、あるいは重複しないアノテーションで分類タスクで成功することを示す。本稿では,分散マッチングによるタスク間の知識交換を可能にする新しい手法を提案する。
論文参考訳（メタデータ） (2024-01-02T14:18:11Z)
Leveraging sparse and shared feature activations for disentangled representation learning [112.22699167017471]
本稿では,教師付きタスクの多種多様な集合から抽出した知識を活用し,共通不整合表現を学習することを提案する。我々は6つの実世界分布シフトベンチマークと異なるデータモダリティに対するアプローチを検証する。
論文参考訳（メタデータ） (2023-04-17T01:33:24Z)
DPPMask: Masked Image Modeling with Determinantal Point Processes [49.65141962357528]
Masked Image Modeling (MIM)は、ランダムにマスキングされた画像の再構成を目的として、印象的な代表的性能を達成した。先行研究で広く使われている一様ランダムマスキングは、必然的にいくつかの重要なオブジェクトを失い、元のセマンティック情報を変更する。この問題に対処するため、MIMを新しいマスキング戦略であるDPPMaskで強化する。提案手法は単純だが有効であり,様々なフレームワークで実装される場合,余分に学習可能なパラメータは不要である。
論文参考訳（メタデータ） (2023-03-13T13:40:39Z)
AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation [86.44683367028914]
航空画像のセグメンテーションにはいくつかの独特な課題があり、中でも最も重要なものは前景と背景のアンバランスにある。本稿では,階層的なセグメンテーション手法を採用し,マルチスケール表現を適応的に活用するAdaptive Focus Framework (AF$)を提案する。 AF$は、広く使われている3つの航空ベンチマークの精度を大幅に改善した。
論文参考訳（メタデータ） (2022-02-18T10:14:45Z)
Empirical Study of Multi-Task Hourglass Model for Semantic Segmentation Task [0.7614628596146599]
エッジ検出, 意味輪郭, 距離変換タスクを用いて, セマンティックセグメンテーションタスクを補完するマルチタスク手法を提案する。本研究では,Cityscapes,CamVid,Freiburg Forestの各データセットにおける時間ガラスモデルのマルチタスク環境における学習の有効性を示す。
論文参考訳（メタデータ） (2021-05-28T01:08:10Z)
CutPaste: Self-Supervised Learning for Anomaly Detection and Localization [59.719925639875036]
通常のトレーニングデータのみを用いて異常検知器を構築するためのフレームワークを提案する。まず、自己教師付き深層表現を学習し、学習した表現の上に生成的1クラス分類器を構築する。 MVTec異常検出データセットに関する実証研究は,提案アルゴリズムが実世界の様々な欠陥を検出可能であることを実証している。
論文参考訳（メタデータ） (2021-04-08T19:04:55Z)
Complementing Representation Deficiency in Few-shot Image Classification: A Meta-Learning Approach [27.350615059290348]
本稿では,MCRNetを用いたメタラーニング手法を提案する。特に、潜時空間を埋め込んで、潜時符号を余分な表現情報で再構成し、表現不足を補完する。我々のエンドツーエンドフレームワークは、3つの標準的な数ショット学習データセット上の画像分類における最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2020-07-21T13:25:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。