論文の概要: Masked Image Modeling with Local Multi-Scale Reconstruction
- arxiv url: http://arxiv.org/abs/2303.05251v1
- Date: Thu, 9 Mar 2023 13:42:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-10 14:51:50.653354
- Title: Masked Image Modeling with Local Multi-Scale Reconstruction
- Title(参考訳): 局所的マルチスケール再構成によるマスク画像モデリング
- Authors: Haoqing Wang, Yehui Tang, Yunhe Wang, Jianyuan Guo, Zhi-Hong Deng, Kai
Han
- Abstract要約: Masked Image Modeling (MIM) は自己教師付き表現学習において顕著な成功を収めている。
既存のMIMモデルはエンコーダの最上層でのみ再構成タスクを実行する。
そこで我々は,下層と上層がそれぞれ微細かつ粗大な監視信号を再構成する局所的マルチスケール再構成を設計する。
- 参考スコア(独自算出の注目度): 54.91442074100597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked Image Modeling (MIM) achieves outstanding success in self-supervised
representation learning. Unfortunately, MIM models typically have huge
computational burden and slow learning process, which is an inevitable obstacle
for their industrial applications. Although the lower layers play the key role
in MIM, existing MIM models conduct reconstruction task only at the top layer
of encoder. The lower layers are not explicitly guided and the interaction
among their patches is only used for calculating new activations. Considering
the reconstruction task requires non-trivial inter-patch interactions to reason
target signals, we apply it to multiple local layers including lower and upper
layers. Further, since the multiple layers expect to learn the information of
different scales, we design local multi-scale reconstruction, where the lower
and upper layers reconstruct fine-scale and coarse-scale supervision signals
respectively. This design not only accelerates the representation learning
process by explicitly guiding multiple layers, but also facilitates multi-scale
semantical understanding to the input. Extensive experiments show that with
significantly less pre-training burden, our model achieves comparable or better
performance on classification, detection and segmentation tasks than existing
MIM models.
- Abstract(参考訳): Masked Image Modeling (MIM) は自己教師付き表現学習において大きな成功を収めている。
残念なことに、MIMモデルは一般に膨大な計算負荷と遅い学習プロセスを持ち、産業的応用には避けられない障害である。
下位層はMIMにおいて重要な役割を果たすが、既存のMIMモデルはエンコーダの最上層でのみ再構成タスクを実行する。
下層層は明示的に誘導されず、パッチ間の相互作用は新しいアクティベーションを計算するためにのみ使用される。
目的信号の推論には非自明なパッチ間相互作用を必要とするため,下層と上層を含む複数のローカル層に適用する。
さらに,複数の層が異なるスケールの情報を学習することを期待するので,下位層と上位層がそれぞれ細かなスケールと粗大な監督信号を再構成する局所的多スケール再構成をデザインする。
この設計は、複数のレイヤを明示的に案内することで表現学習プロセスを加速するだけでなく、入力に対するマルチスケールなセマンティクス理解を促進する。
大規模な実験により,既存のMIMモデルに比べて,事前学習の負担が著しく少ないため,分類,検出,セグメンテーションタスクの性能が向上することが示された。
関連論文リスト
- Chip-Tuning: Classify Before Language Models Say [25.546473157624945]
チップチューニングは、分類問題に対するシンプルで効果的な構造化プルーニングフレームワークである。
チップチューニングは,従来の最先端のベースラインを精度とプルーニング比の両方で大幅に上回っていることを示す。
また、チップチューニングはマルチモーダルモデルに適用でき、モデル微調整と組み合わせることで、優れた互換性が証明できる。
論文 参考訳(メタデータ) (2024-10-09T04:35:22Z) - LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。
本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。
異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文 参考訳(メタデータ) (2024-07-28T06:10:47Z) - Inheritune: Training Smaller Yet More Attentive Language Models [61.363259848264725]
Inherituneは、より小型で高性能な言語モデルを開発するための、シンプルで効果的なトレーニングレシピである。
Inheritune は OpenWebText-9B や FineWeb_edu のようなデータセット上で GPT-2 モデルのさまざまなサイズのトレーニングを可能にする。
論文 参考訳(メタデータ) (2024-04-12T17:53:34Z) - MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining [73.81862342673894]
ファンデーションモデルは、様々な画像解釈タスクを強化することで、リモートセンシング(RS)のランドスケープを再構築した。
事前訓練されたモデルを下流のタスクに転送することは、イメージ分類やオブジェクト識別タスクとして事前訓練の定式化によるタスクの相違に遭遇する可能性がある。
SAMRSデータセット上で、セマンティックセグメンテーション、インスタンスセグメンテーション、回転オブジェクト検出を含むマルチタスクによる事前トレーニングを行う。
我々のモデルは、シーン分類、水平・回転物体検出、セマンティックセグメンテーション、変化検出など、様々なRS下流タスクに基づいて微調整される。
論文 参考訳(メタデータ) (2024-03-20T09:17:22Z) - Probing Multimodal Large Language Models for Global and Local Semantic Representations [57.25949445963422]
マルチモーダル大言語モデルのどの層がグローバルな画像情報に最も力を注いでいるかを検討する。
本研究では,モデルの中間層が,よりグローバルな意味情報を符号化できることを見出した。
最上位のレイヤが過度にローカル情報に集中していることが分かり、グローバル情報をエンコードする能力の低下につながります。
論文 参考訳(メタデータ) (2024-02-27T08:27:15Z) - MIM-Refiner: A Contrastive Learning Boost from Intermediate Pre-Trained Representations [16.885965702357314]
MIM-Refinerは、事前訓練されたMIMモデルの対照的な学習促進である。
我々はMIMモデルの特徴を、サブパーから最先端のオフ・ザ・シェルフ機能まで洗練する。
論文 参考訳(メタデータ) (2024-02-15T16:46:16Z) - Multilinear Operator Networks [60.7432588386185]
ポリノミアルネットワーク(Polynomial Networks)は、アクティベーション関数を必要としないモデルのクラスである。
マルチリニア演算子のみに依存するMONetを提案する。
論文 参考訳(メタデータ) (2024-01-31T16:52:19Z) - Contextual Gradient Scaling for Few-Shot Learning [24.19934081878197]
モデルに依存しないメタラーニング(MAML)のための文脈勾配スケーリング(CxGrad)を提案する。
CxGradは、インナーループにおけるタスク固有の知識の学習を容易にするために、バックボーンの勾配ノルムをスケールする。
実験の結果,CxGradは内ループにおけるタスク固有の知識の学習を効果的に促すことが示された。
論文 参考訳(メタデータ) (2021-10-20T03:05:58Z) - Multi-Model Least Squares-Based Recomputation Framework for Large Data
Analysis [0.0]
ImageNetデータセットの処理などの複雑なタスクでは、直接エンコードできる手がかりが頻繁にあります。
これは、教師なし学習がまだ学んでいないヒントを学ぶために潜在空間表現を再訓練する動機となる。
本稿では,MP逆(RML-MP)を用いた再計算に基づく多層ネットワークを提案する。
論文 参考訳(メタデータ) (2021-01-04T23:01:30Z) - Multi-layer Residual Sparsifying Transform (MARS) Model for Low-dose CT
Image Reconstruction [12.37556184089774]
教師なしの方法で学習した新しい多層モデルに基づく画像再構成手法を開発した。
提案フレームワークは、画像の古典的スカラー化変換モデルを、Multi-lAyer Residual Sparsifying transform (MARS)モデルに拡張する。
限られた正規線量画像から教師なしの方法で層間変換を学習する効率的なブロック座標降下アルゴリズムを導出する。
論文 参考訳(メタデータ) (2020-10-10T09:04:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。