論文の概要: Learning to Resize Images for Computer Vision Tasks
- arxiv url: http://arxiv.org/abs/2103.09950v1
- Date: Wed, 17 Mar 2021 23:43:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-19 14:09:27.958118
- Title: Learning to Resize Images for Computer Vision Tasks
- Title(参考訳): コンピュータビジョンタスクのための画像のサイズ変更学習
- Authors: Hossein Talebi, Peyman Milanfar
- Abstract要約: そこで本研究では,リニアリシライザを学習リシライザに置き換えることで,性能を大幅に向上できることを示す。
我々の学習画像復調器はベースライン視覚モデルで共同で訓練されている。
提案手法は,他の視覚タスクの分類ベースラインの微調整にも有用であることを示す。
- 参考スコア(独自算出の注目度): 15.381549764216134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For all the ways convolutional neural nets have revolutionized computer
vision in recent years, one important aspect has received surprisingly little
attention: the effect of image size on the accuracy of tasks being trained for.
Typically, to be efficient, the input images are resized to a relatively small
spatial resolution (e.g. 224x224), and both training and inference are carried
out at this resolution. The actual mechanism for this re-scaling has been an
afterthought: Namely, off-the-shelf image resizers such as bilinear and bicubic
are commonly used in most machine learning software frameworks. But do these
resizers limit the on task performance of the trained networks? The answer is
yes. Indeed, we show that the typical linear resizer can be replaced with
learned resizers that can substantially improve performance. Importantly, while
the classical resizers typically result in better perceptual quality of the
downscaled images, our proposed learned resizers do not necessarily give better
visual quality, but instead improve task performance. Our learned image resizer
is jointly trained with a baseline vision model. This learned CNN-based resizer
creates machine friendly visual manipulations that lead to a consistent
improvement of the end task metric over the baseline model. Specifically, here
we focus on the classification task with the ImageNet dataset, and experiment
with four different models to learn resizers adapted to each model. Moreover,
we show that the proposed resizer can also be useful for fine-tuning the
classification baselines for other vision tasks. To this end, we experiment
with three different baselines to develop image quality assessment (IQA) models
on the AVA dataset.
- Abstract(参考訳): 近年、畳み込みニューラルネットワークがコンピュータビジョンに革命をもたらしたあらゆる方法において、画像サイズがトレーニング対象のタスクの精度に与える影響という、驚くほど重要な側面が注目されていない。
通常、効率性を高めるために、入力画像は比較的小さな空間解像度(例えば)にリサイズされる。
224×224)で、この解像度でトレーニングと推論の両方を行う。
つまり、bilinearやbicubicといった既製のイメージリザーは、ほとんどの機械学習ソフトウェアフレームワークで一般的に使用されています。
しかし、これらのリサイザーはトレーニングされたネットワークのタスク性能を制限するのだろうか?
答えはイエスです。
実際、典型的な線形リサイザは、性能を大幅に向上できる学習されたリサイザに置き換えることができる。
重要なことは、古典的リサイザーは一般的にダウンスケール画像の知覚的品質が向上するのに対し、学習されたリサイザーは必ずしも視覚的品質が向上するだけでなく、タスク性能が向上する。
我々の学習画像復調器はベースライン視覚モデルで共同で訓練されている。
この学習されたCNNベースのリサイザは、ベースラインモデルよりも終端タスクメトリックを一貫した改善をもたらす、マシンフレンドリーな視覚操作を生成する。
具体的には、imagenetデータセットによる分類タスクに注目し、4つの異なるモデルを用いて各モデルに適応したリシライザを学習する。
さらに,提案手法は,他の視覚タスクの分類ベースラインの微調整にも有用であることを示す。
そこで我々は,AVAデータセット上で画像品質評価(IQA)モデルを開発するために,3種類のベースラインを実験した。
関連論文リスト
- Combined CNN and ViT features off-the-shelf: Another astounding baseline for recognition [49.14350399025926]
本稿では,ImageNet Large Scale Visual Recognition Challengeのために開発された事前学習型アーキテクチャを,近視認識に適用する。
CNNとViTの中間層の特徴は、近視画像に基づいて個人を認識するのに適した方法である。
論文 参考訳(メタデータ) (2024-07-28T11:52:36Z) - Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - GPT4Image: Can Large Pre-trained Models Help Vision Models on Perception
Tasks? [51.22096780511165]
本稿では,大規模な事前学習モデルから抽出した知識を利用して,CNN や ViT などのモデルが拡張表現を学習するのを支援する新しい学習パラダイムを提案する。
我々は、詳細な記述を事前訓練されたエンコーダに入力し、画像の内容をエンコードするリッチなセマンティック情報でテキスト埋め込みを抽出する。
論文 参考訳(メタデータ) (2023-06-01T14:02:45Z) - MULLER: Multilayer Laplacian Resizer for Vision [16.67232499096539]
MULLERレサイザと呼ばれる,少数のトレーニング可能なパラメータしか持たない,非常に軽量な多層ラプラシアンリサイザを提案する。
MULLERは、様々な訓練パイプラインに簡単に接続できることを示し、基礎となる視覚タスクの性能を、ほとんど、あるいは、余分なコストで効果的に向上させる。
論文 参考訳(メタデータ) (2023-04-06T04:39:21Z) - EfficientTrain: Exploring Generalized Curriculum Learning for Training
Visual Backbones [80.662250618795]
本稿では視覚バックボーン(例えば視覚変換器)の効率的なトレーニングのための新しいカリキュラム学習手法を提案する。
オフザシェルフ方式として、様々な人気モデルのウォールタイムトレーニングコストを、精度を犠牲にすることなく、ImageNet-1K/22Kで1.5倍に削減する。
論文 参考訳(メタデータ) (2022-11-17T17:38:55Z) - On Efficient Transformer and Image Pre-training for Low-level Vision [74.22436001426517]
プレトレーニングは、ハイレベルコンピュータビジョンにおける多くの最先端の芸術である。
画像事前学習の詳細な研究について述べる。
低レベルのタスクでは,事前トレーニングが極めて異なる役割を担っています。
論文 参考訳(メタデータ) (2021-12-19T15:50:48Z) - Automated Cleanup of the ImageNet Dataset by Model Consensus,
Explainability and Confident Learning [0.0]
ImageNetは、ILSVRC12Netでトレーニングされた様々な畳み込みニューラルネットワーク(CNN)のバックボーンである。
本稿では,モデルのコンセンサス,説明可能性,自信のある学習に基づく自動アプリケーションについて述べる。
ImageNet-CleanはSqueezeNetおよびEfficientNet-B0モデルのモデルパフォーマンスを2-2.4%向上させる。
論文 参考訳(メタデータ) (2021-03-30T13:16:35Z) - Pre-Trained Image Processing Transformer [95.93031793337613]
我々は、新しい事前学習モデル、すなわち、画像処理変換器(IPT)を開発する。
本稿では、よく知られたImageNetベンチマークを用いて、大量の画像ペアを生成する。
IPTモデルは、これらの画像をマルチヘッドとマルチテールでトレーニングする。
論文 参考訳(メタデータ) (2020-12-01T09:42:46Z) - Multi-task pre-training of deep neural networks for digital pathology [8.74883469030132]
私たちはまず、多くのデジタル病理データセットを22の分類タスクと約900kの画像のプールに組み立て、変換しました。
特徴抽出器として使用されるモデルは、ImageNet事前訓練されたモデルよりも大幅に改善されるか、同等のパフォーマンスを提供するかを示す。
論文 参考訳(メタデータ) (2020-05-05T08:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。