論文の概要: MULLER: Multilayer Laplacian Resizer for Vision
- arxiv url: http://arxiv.org/abs/2304.02859v1
- Date: Thu, 6 Apr 2023 04:39:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-07 15:14:28.809634
- Title: MULLER: Multilayer Laplacian Resizer for Vision
- Title(参考訳): muller: 視覚のための多層ラプラシアン共振器
- Authors: Zhengzhong Tu, Peyman Milanfar, Hossein Talebi
- Abstract要約: MULLERレサイザと呼ばれる,少数のトレーニング可能なパラメータしか持たない,非常に軽量な多層ラプラシアンリサイザを提案する。
MULLERは、様々な訓練パイプラインに簡単に接続できることを示し、基礎となる視覚タスクの性能を、ほとんど、あるいは、余分なコストで効果的に向上させる。
- 参考スコア(独自算出の注目度): 16.67232499096539
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Image resizing operation is a fundamental preprocessing module in modern
computer vision. Throughout the deep learning revolution, researchers have
overlooked the potential of alternative resizing methods beyond the commonly
used resizers that are readily available, such as nearest-neighbors, bilinear,
and bicubic. The key question of our interest is whether the front-end resizer
affects the performance of deep vision models? In this paper, we present an
extremely lightweight multilayer Laplacian resizer with only a handful of
trainable parameters, dubbed MULLER resizer. MULLER has a bandpass nature in
that it learns to boost details in certain frequency subbands that benefit the
downstream recognition models. We show that MULLER can be easily plugged into
various training pipelines, and it effectively boosts the performance of the
underlying vision task with little to no extra cost. Specifically, we select a
state-of-the-art vision Transformer, MaxViT, as the baseline, and show that, if
trained with MULLER, MaxViT gains up to 0.6% top-1 accuracy, and meanwhile
enjoys 36% inference cost saving to achieve similar top-1 accuracy on
ImageNet-1k, as compared to the standard training scheme. Notably, MULLER's
performance also scales with model size and training data size such as
ImageNet-21k and JFT, and it is widely applicable to multiple vision tasks,
including image classification, object detection and segmentation, as well as
image quality assessment.
- Abstract(参考訳): イメージリサイズ操作は、現代のコンピュータビジョンにおける基本的な前処理モジュールである。
ディープラーニング革命を通じて、研究者たちは、最も近い隣人、双線形人、およびバイコビックなど、容易に利用できるリサイザー以外の代替リサイズ手法の可能性を見落としてきた。
私たちの関心の主な問題は、フロントエンドリサイザーがディープビジョンモデルの性能に影響を及ぼすかどうかである。
本稿では,非常に軽量な多層ラプラシアンリシライザについて,muler resizer と呼ばれる一握りの練習可能なパラメータについて述べる。
MULLERは、下流の認識モデルに有利な特定の周波数サブバンドの詳細を向上することを学ぶというバンドパス特性を持っている。
MULLERは、様々な訓練パイプラインに簡単に接続できることを示し、基礎となる視覚タスクの性能を、ほとんど、あるいは、余分なコストで効果的に向上させる。
具体的には、最先端のビジョントランスフォーマーであるMaxViTをベースラインとして選択し、MULLERでトレーニングした場合、MaxViTは最大0.6%のトップ1精度を得る一方、ImageNet-1kで同様のトップ1精度を達成するために36%の推論コストを節約できることを示す。
特に、MULLERの性能は ImageNet-21k や JFT などのモデルサイズやトレーニングデータサイズとスケールし、画像分類、オブジェクト検出、セグメンテーション、画像品質評価など、複数の視覚タスクに広く適用できる。
関連論文リスト
- Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training [103.72844619581811]
MLLM(Performant Multimodal Large Language Models)を構築する。
特に,さまざまなアーキテクチャコンポーネントとデータ選択の重要性について検討する。
本稿では,画像キャプチャ,インターリーブ画像テキスト,テキストのみのデータを組み合わせた大規模マルチモーダル事前学習について述べる。
論文 参考訳(メタデータ) (2024-03-14T17:51:32Z) - Improve Supervised Representation Learning with Masked Image Modeling [30.30649867772395]
マスク付き画像モデリングを既存の教師付きトレーニングパラダイムに簡単に統合できる,シンプルで効果的なセットアップを提案する。
アーキテクチャの変更は最小限であり、この設定が学習した表現の質を向上させることができるという仮定のオーバーヘッドはない。
論文 参考訳(メタデータ) (2023-12-01T22:03:25Z) - ViR: Towards Efficient Vision Retention Backbones [97.93707844681893]
視覚保持ネットワーク(ViR)と呼ばれる新しいコンピュータビジョンモデルを提案する。
ViRは並列および繰り返しの定式化を持ち、高速推論と並列トレーニングと競合性能の最適なバランスをとる。
我々は,様々なデータセットサイズと様々な画像解像度を用いた広範囲な実験により,ViRの有効性を検証した。
論文 参考訳(メタデータ) (2023-10-30T16:55:50Z) - FastMIM: Expediting Masked Image Modeling Pre-training for Vision [65.47756720190155]
FastMIMは低解像度の入力画像で視覚バックボーンを事前訓練するためのフレームワークである。
入力画像のRGB値の代わりに、向き付け勾配のヒストグラム(Histograms of Oriented Gradients,HOG)機能を再構成する。
ViT-B/Swin-Bをバックボーンとし、ImageNet-1Kで83.8%/84.1%のトップ1の精度を達成できる。
論文 参考訳(メタデータ) (2022-12-13T14:09:32Z) - EVA: Exploring the Limits of Masked Visual Representation Learning at
Scale [46.952339726872374]
EVAは視覚中心の基盤モデルで、大規模に視覚表現の限界を探索する。
EVAは、目に見える画像パッチに調整されたマスクされた画像テキスト整列視覚機能を再構築するために事前訓練されたバニラViTである。
EVAから巨大なCLIPのビジョンタワーを初期化することで、トレーニングを大幅に安定させ、より少ないサンプルと少ない計算でスクラッチからトレーニングを上回ります。
論文 参考訳(メタデータ) (2022-11-14T18:59:52Z) - Advancing Plain Vision Transformer Towards Remote Sensing Foundation
Model [97.9548609175831]
約1億のパラメータを持つプレーンビジョントランスフォーマーを利用して、リモートセンシングタスク用にカスタマイズされた大規模なビジョンモデルを提案する。
具体的には、RS画像における大きな画像サイズと様々な向きのオブジェクトを扱うために、回転する様々なウィンドウアテンションを提案する。
検出タスクの実験は、DOTA-V1.0データセット上で81.16%のmAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-08-08T09:08:40Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Learning to Resize Images for Computer Vision Tasks [15.381549764216134]
そこで本研究では,リニアリシライザを学習リシライザに置き換えることで,性能を大幅に向上できることを示す。
我々の学習画像復調器はベースライン視覚モデルで共同で訓練されている。
提案手法は,他の視覚タスクの分類ベースラインの微調整にも有用であることを示す。
論文 参考訳(メタデータ) (2021-03-17T23:43:44Z) - Pre-Trained Image Processing Transformer [95.93031793337613]
我々は、新しい事前学習モデル、すなわち、画像処理変換器(IPT)を開発する。
本稿では、よく知られたImageNetベンチマークを用いて、大量の画像ペアを生成する。
IPTモデルは、これらの画像をマルチヘッドとマルチテールでトレーニングする。
論文 参考訳(メタデータ) (2020-12-01T09:42:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。