論文の概要: Improving Pixel-based MIM by Reducing Wasted Modeling Capability
- arxiv url: http://arxiv.org/abs/2308.00261v1
- Date: Tue, 1 Aug 2023 03:44:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 15:30:25.798274
- Title: Improving Pixel-based MIM by Reducing Wasted Modeling Capability
- Title(参考訳): 無駄なモデリング能力の低減による画素ベースmimの改善
- Authors: Yuan Liu, Songyang Zhang, Jiacheng Chen, Zhaohui Yu, Kai Chen, Dahua
Lin
- Abstract要約: 浅い層から低レベルの特徴を明示的に利用して画素再構成を支援する手法を提案する。
私たちの知る限りでは、等方的アーキテクチャのためのマルチレベル特徴融合を体系的に研究するのは、私たちは初めてです。
提案手法は, 微調整では1.2%, 線形探索では2.8%, セマンティックセグメンテーションでは2.6%など, 大幅な性能向上をもたらす。
- 参考スコア(独自算出の注目度): 77.99468514275185
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There has been significant progress in Masked Image Modeling (MIM). Existing
MIM methods can be broadly categorized into two groups based on the
reconstruction target: pixel-based and tokenizer-based approaches. The former
offers a simpler pipeline and lower computational cost, but it is known to be
biased toward high-frequency details. In this paper, we provide a set of
empirical studies to confirm this limitation of pixel-based MIM and propose a
new method that explicitly utilizes low-level features from shallow layers to
aid pixel reconstruction. By incorporating this design into our base method,
MAE, we reduce the wasted modeling capability of pixel-based MIM, improving its
convergence and achieving non-trivial improvements across various downstream
tasks. To the best of our knowledge, we are the first to systematically
investigate multi-level feature fusion for isotropic architectures like the
standard Vision Transformer (ViT). Notably, when applied to a smaller model
(e.g., ViT-S), our method yields significant performance gains, such as 1.2\%
on fine-tuning, 2.8\% on linear probing, and 2.6\% on semantic segmentation.
Code and models are available at https://github.com/open-mmlab/mmpretrain.
- Abstract(参考訳): Masked Image Modeling (MIM)では大きな進歩があった。
既存のmimメソッドは、レコンストラクションターゲットに基づく2つのグループ(ピクセルベースとトークンベース)に大まかに分類できる。
前者はより単純なパイプラインとより低い計算コストを提供するが、高周波の詳細に偏りがあることが知られている。
本稿では,この画素ベースMIMの限界を実証するための実証的研究を行い,浅い層から低レベルの特徴を明示的に利用して画素再構成を支援する手法を提案する。
この設計を基本手法であるMAEに組み込むことで、画素ベースのMIMの無駄なモデリング能力を低減し、収束性を改善し、下流の様々なタスクにまたがる非自明な改善を実現する。
私たちの知る限りでは、標準ビジョントランスフォーマー(vit)のような等方性アーキテクチャのマルチレベル機能融合を体系的に調査した最初の人物です。
特に、より小さなモデル(例えば、ViT-S)に適用すると、微調整の1.2\%、線形プローブの2.8\%、セマンティックセグメンテーションの2.6\%といった大きな性能向上が得られる。
コードとモデルはhttps://github.com/open-mmlab/mmpretrainで入手できる。
関連論文リスト
- Multi-Head Attention Residual Unfolded Network for Model-Based Pansharpening [2.874893537471256]
展開融合法は、ディープラーニングの強力な表現能力とモデルベースアプローチの堅牢性を統合する。
本稿では,衛星画像融合のためのモデルに基づく深部展開手法を提案する。
PRISMA、Quickbird、WorldView2データセットの実験結果から、本手法の優れた性能が示された。
論文 参考訳(メタデータ) (2024-09-04T13:05:00Z) - Parameter-Inverted Image Pyramid Networks [49.35689698870247]
Inverted Image Pyramid Networks (PIIP) と呼ばれる新しいネットワークアーキテクチャを提案する。
私たちの中核となる考え方は、パラメータサイズの異なるモデルを使用して、画像ピラミッドの解像度の異なるレベルを処理することです。
PIIPは、オブジェクト検出、セグメンテーション、画像分類などのタスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-06T17:59:10Z) - Dual-Scale Transformer for Large-Scale Single-Pixel Imaging [11.064806978728457]
本研究では,HATNet と呼ばれる Kronecker SPI モデル上でのハイブリッドアテンショントランスフォーマを用いた深部展開ネットワークを提案し,実際の SPI カメラの画質向上を図る。
勾配降下モジュールはベクトル化されたSPIに基づいて、以前の勾配降下モジュールに根付いた高い計算オーバーヘッドを回避することができる。
このデノナイジングモジュールは,高周波・低周波アグリゲーションのための2次元空間アグリゲーションと,グローバル情報再構成のためのチャネルアグリゲーションを利用したエンコーダデコーダアーキテクチャである。
論文 参考訳(メタデータ) (2024-04-07T15:53:21Z) - Deep Neural Networks Fused with Textures for Image Classification [20.58839604333332]
きめ細かい画像分類はコンピュータビジョンにおいて難しい課題である。
グローバルテクスチャと局所パッチ情報を組み合わせたFGICの融合手法を提案する。
提案手法は,有意なマージンを有する既存手法よりも高い分類精度を達成できた。
論文 参考訳(メタデータ) (2023-08-03T15:21:08Z) - PixMIM: Rethinking Pixel Reconstruction in Masked Image Modeling [83.67628239775878]
Masked Image Modeling (MIM) は Masked Autoencoders (MAE) と BEiT の出現によって有望な進歩を遂げた。
本稿では,画素再構成の観点からMIMの基本解析を行う。
我々は,2つの戦略を包含する極めて単純で効果的な方法,weelmethodを提案する。
論文 参考訳(メタデータ) (2023-03-04T13:38:51Z) - Ultra-High-Definition Low-Light Image Enhancement: A Benchmark and
Transformer-Based Method [51.30748775681917]
低照度画像強調(LLIE)の課題を考察し,4K解像度と8K解像度の画像からなる大規模データベースを導入する。
我々は、系統的なベンチマーク研究を行い、現在のLLIEアルゴリズムと比較する。
第2のコントリビューションとして,変換器をベースとした低照度化手法であるLLFormerを紹介する。
論文 参考訳(メタデータ) (2022-12-22T09:05:07Z) - Highly Efficient Natural Image Matting [15.977598189574659]
軽量モデルを用いたトリマップフリーな自然画像マッチング手法を提案する。
非常に軽量なモデルを構築し、人気のある自然画像ベンチマーク上で1% (344k) の大規模モデルで同等の性能を実現する。
論文 参考訳(メタデータ) (2021-10-25T09:23:46Z) - FeatMatch: Feature-Based Augmentation for Semi-Supervised Learning [64.32306537419498]
本稿では,複雑な変換を多様に生成する特徴量に基づく改良・拡張手法を提案する。
これらの変換は、クラスタリングを通じて抽出したクラス内およびクラス間の両方の情報も利用します。
提案手法は,大規模データセットにスケールアップしながら,より小さなデータセットに対して,現在の最先端技術に匹敵するものであることを実証する。
論文 参考訳(メタデータ) (2020-07-16T17:55:31Z) - Normalizing Flows with Multi-Scale Autoregressive Priors [131.895570212956]
マルチスケール自己回帰前処理(mAR)を通した遅延空間におけるチャネルワイド依存性を導入する。
我々のmARは、分割結合フロー層(mAR-SCF)を持つモデルに先立って、複雑なマルチモーダルデータの依存関係をよりよく捉えます。
我々は,mAR-SCFにより画像生成品質が向上し,FIDとインセプションのスコアは最先端のフローベースモデルと比較して向上したことを示す。
論文 参考訳(メタデータ) (2020-04-08T09:07:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。