論文の概要: Masked Image Modeling with Local Multi-Scale Reconstruction
- arxiv url: http://arxiv.org/abs/2303.05251v1
- Date: Thu, 9 Mar 2023 13:42:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-10 14:51:50.653354
- Title: Masked Image Modeling with Local Multi-Scale Reconstruction
- Title(参考訳): 局所的マルチスケール再構成によるマスク画像モデリング
- Authors: Haoqing Wang, Yehui Tang, Yunhe Wang, Jianyuan Guo, Zhi-Hong Deng, Kai
Han
- Abstract要約: Masked Image Modeling (MIM) は自己教師付き表現学習において顕著な成功を収めている。
既存のMIMモデルはエンコーダの最上層でのみ再構成タスクを実行する。
そこで我々は,下層と上層がそれぞれ微細かつ粗大な監視信号を再構成する局所的マルチスケール再構成を設計する。
- 参考スコア(独自算出の注目度): 54.91442074100597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked Image Modeling (MIM) achieves outstanding success in self-supervised
representation learning. Unfortunately, MIM models typically have huge
computational burden and slow learning process, which is an inevitable obstacle
for their industrial applications. Although the lower layers play the key role
in MIM, existing MIM models conduct reconstruction task only at the top layer
of encoder. The lower layers are not explicitly guided and the interaction
among their patches is only used for calculating new activations. Considering
the reconstruction task requires non-trivial inter-patch interactions to reason
target signals, we apply it to multiple local layers including lower and upper
layers. Further, since the multiple layers expect to learn the information of
different scales, we design local multi-scale reconstruction, where the lower
and upper layers reconstruct fine-scale and coarse-scale supervision signals
respectively. This design not only accelerates the representation learning
process by explicitly guiding multiple layers, but also facilitates multi-scale
semantical understanding to the input. Extensive experiments show that with
significantly less pre-training burden, our model achieves comparable or better
performance on classification, detection and segmentation tasks than existing
MIM models.
- Abstract(参考訳): Masked Image Modeling (MIM) は自己教師付き表現学習において大きな成功を収めている。
残念なことに、MIMモデルは一般に膨大な計算負荷と遅い学習プロセスを持ち、産業的応用には避けられない障害である。
下位層はMIMにおいて重要な役割を果たすが、既存のMIMモデルはエンコーダの最上層でのみ再構成タスクを実行する。
下層層は明示的に誘導されず、パッチ間の相互作用は新しいアクティベーションを計算するためにのみ使用される。
目的信号の推論には非自明なパッチ間相互作用を必要とするため,下層と上層を含む複数のローカル層に適用する。
さらに,複数の層が異なるスケールの情報を学習することを期待するので,下位層と上位層がそれぞれ細かなスケールと粗大な監督信号を再構成する局所的多スケール再構成をデザインする。
この設計は、複数のレイヤを明示的に案内することで表現学習プロセスを加速するだけでなく、入力に対するマルチスケールなセマンティクス理解を促進する。
大規模な実験により,既存のMIMモデルに比べて,事前学習の負担が著しく少ないため,分類,検出,セグメンテーションタスクの性能が向上することが示された。
関連論文リスト
- ShortGPT: Layers in Large Language Models are More Redundant Than You
Expect [39.791695729504006]
LLM(Large Language Models)の多くの層は高い類似性を示し、いくつかの層はネットワーク機能において無視できる役割を担っている。
レイヤ除去という,冗長なレイヤを直接削除する,簡単なプルーニング手法を提案する。
実験により,我々はShortGPT(ショートGPT)と呼ぶ手法を,モデルプルーニングにおける従来のSOTA(State-of-the-art)手法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2024-03-06T17:04:18Z) - Multilinear Operator Networks [60.7432588386185]
ポリノミアルネットワーク(Polynomial Networks)は、アクティベーション関数を必要としないモデルのクラスである。
マルチリニア演算子のみに依存するMONetを提案する。
論文 参考訳(メタデータ) (2024-01-31T16:52:19Z) - Concrete Subspace Learning based Interference Elimination for Multi-task
Model Fusion [86.6191592951269]
一般的な事前訓練された大規模モデルから微調整されたマージングモデルは、様々なタスクに特化しているが、様々なタスクでうまく機能するマルチタスクモデルを構築するための安価でスケーラブルな戦略として実証されている。
本稿では、共通低次元部分空間を同定し、その共有情報トラック干渉問題を性能を犠牲にすることなく利用するための連続緩和(Concrete)部分空間学習法を提案する。
論文 参考訳(メタデータ) (2023-12-11T07:24:54Z) - Layer Grafted Pre-training: Bridging Contrastive Learning And Masked
Image Modeling For Label-Efficient Representations [130.05189514598996]
Mask Image Modeling (MIM) と Contrastive Learning (CL) は、自己超越が優れた表現を学ぶのに強力であることを示した。
本稿では,CLとMIMの損失の簡易な共同最適化が,矛盾する勾配方向を導いた経験的観察を行う。
実験により,MIMとCLは下層と上層にそれぞれ適していることがわかった。
初期のレイヤはまず1つのMIM損失の下でトレーニングされ、その上に、後者のレイヤは別のCL損失の下でトレーニングされ続けます。
論文 参考訳(メタデータ) (2023-02-27T20:52:10Z) - Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language
Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。
モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。
MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-03-09T17:26:53Z) - Multi-level Second-order Few-shot Learning [111.0648869396828]
教師付きまたは教師なしの少数ショット画像分類と少数ショット動作認識のためのマルチレベル2次数列学習ネットワーク(MlSo)を提案する。
我々は、パワーノーマライズされた二階学習者ストリームと、複数のレベルの視覚的抽象化を表現する機能を組み合わせた、いわゆる2階学習者ストリームを活用している。
我々は,Omniglot, mini-ImageNet, tiered-ImageNet, Open MIC, CUB Birds, Stanford Dogs, Cars, HMDB51, UCF101, mini-MITなどのアクション認識データセットなどの標準データセットに対して,優れた結果を示す。
論文 参考訳(メタデータ) (2022-01-15T19:49:00Z) - Contextual Gradient Scaling for Few-Shot Learning [24.19934081878197]
モデルに依存しないメタラーニング(MAML)のための文脈勾配スケーリング(CxGrad)を提案する。
CxGradは、インナーループにおけるタスク固有の知識の学習を容易にするために、バックボーンの勾配ノルムをスケールする。
実験の結果,CxGradは内ループにおけるタスク固有の知識の学習を効果的に促すことが示された。
論文 参考訳(メタデータ) (2021-10-20T03:05:58Z) - How to Sense the World: Leveraging Hierarchy in Multimodal Perception
for Robust Reinforcement Learning Agents [9.840104333194663]
我々は表現モデルの設計における階層性を主張し、新しいマルチモーダル表現モデルであるMUSEに貢献する。
MUSEは,アタリゲームにおけるマルチモーダル観察を備えた深層強化学習エージェントの感覚表現モデルである。
我々は、強化学習エージェントの異なる設計に関する比較研究を行い、MUSEは、エージェントが最小性能の損失で不完全な知覚経験の下でタスクを実行できることを示した。
論文 参考訳(メタデータ) (2021-10-07T16:35:23Z) - Multi-Model Least Squares-Based Recomputation Framework for Large Data
Analysis [0.0]
ImageNetデータセットの処理などの複雑なタスクでは、直接エンコードできる手がかりが頻繁にあります。
これは、教師なし学習がまだ学んでいないヒントを学ぶために潜在空間表現を再訓練する動機となる。
本稿では,MP逆(RML-MP)を用いた再計算に基づく多層ネットワークを提案する。
論文 参考訳(メタデータ) (2021-01-04T23:01:30Z) - Multi-layer Residual Sparsifying Transform (MARS) Model for Low-dose CT
Image Reconstruction [12.37556184089774]
教師なしの方法で学習した新しい多層モデルに基づく画像再構成手法を開発した。
提案フレームワークは、画像の古典的スカラー化変換モデルを、Multi-lAyer Residual Sparsifying transform (MARS)モデルに拡張する。
限られた正規線量画像から教師なしの方法で層間変換を学習する効率的なブロック座標降下アルゴリズムを導出する。
論文 参考訳(メタデータ) (2020-10-10T09:04:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。