論文の概要: RGB no more: Minimally-decoded JPEG Vision Transformers
- arxiv url: http://arxiv.org/abs/2211.16421v1
- Date: Tue, 29 Nov 2022 17:52:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 17:33:48.185831
- Title: RGB no more: Minimally-decoded JPEG Vision Transformers
- Title(参考訳): rgb no more:jpeg視覚トランスフォーマーの最小デコード化
- Authors: Jeongsoo Park, Justin Johnson
- Abstract要約: 我々の研究は、JPEGの符号化機能から直接ビジョントランスフォーマー(ViT)を訓練することに焦点を当てている。
我々のViT-Tiモデルは、RGBモデルと比較して最大39.2%高速なトレーニングと17.9%高速な推論を実現している。
- 参考スコア(独自算出の注目度): 18.436466236717802
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most neural networks for computer vision are designed to infer using RGB
images. However, these RGB images are commonly encoded in JPEG before saving to
disk; decoding them imposes an unavoidable overhead for RGB networks. Instead,
our work focuses on training Vision Transformers (ViT) directly from the
encoded features of JPEG. This way, we can avoid most of the decoding overhead,
accelerating data load. Existing works have studied this aspect but they focus
on CNNs. Due to how these encoded features are structured, CNNs require heavy
modification to their architecture to accept such data. Here, we show that this
is not the case for ViTs. In addition, we tackle data augmentation directly on
these encoded features, which to our knowledge, has not been explored in-depth
for training in this setting. With these two improvements -- ViT and data
augmentation -- we show that our ViT-Ti model achieves up to 39.2% faster
training and 17.9% faster inference with no accuracy loss compared to the RGB
counterpart.
- Abstract(参考訳): コンピュータビジョンのためのほとんどのニューラルネットワークは、RGB画像を使って推論するように設計されている。
しかしながら、これらのRGBイメージはディスクに保存する前にJPEGでエンコードされることが多い。
その代わりに、JPEGの符号化機能から直接ViT(Vision Transformers)をトレーニングすることに重点を置いています。
こうすることで、デコードオーバーヘッドのほとんどを回避し、データのロードを加速できます。
既存の研究はこの側面を研究しているが、それらはCNNに焦点を当てている。
これらの符号化された機能は構造化されているため、CNNはそのようなデータを受け入れるためにアーキテクチャに大幅な変更を必要とする。
ここでは、ViTではそうではないことを示す。
また、これらの符号化された特徴に直接データ拡張に取り組むことで、我々の知る限り、この環境でのトレーニングの深みを探求していない。
これらの2つの改善 -- ViTとデータ拡張 -- により、我々のViT-Tiモデルは、最大39.2%の高速トレーニングと17.9%の高速推論を実現し、RGBと比較して精度が低下することを示した。
関連論文リスト
- You Only Need One Color Space: An Efficient Network for Low-light Image Enhancement [50.37253008333166]
低照度画像強調(LLIE)タスクは、劣化した低照度画像から詳細と視覚情報を復元する傾向がある。
水平/垂直インテンシティ(HVI)と呼ばれる新しいトレーニング可能なカラー空間を提案する。
輝度と色をRGBチャネルから切り離して、拡張中の不安定性を緩和するだけでなく、トレーニング可能なパラメータによって異なる照明範囲の低照度画像にも適応する。
論文 参考訳(メタデータ) (2024-02-08T16:47:43Z) - Unleashing the Power of CNN and Transformer for Balanced RGB-Event Video
Recognition [43.52320791818535]
TSCFormer と呼ばれる新しい RGB-Event ベースの認識フレームワークを提案する。
主に、バックボーンネットワークとしてCNNを採用し、まずRGBとイベントデータをエンコードします。
両方のモダリティの間のグローバルな長距離関係をうまく捉え、モデルアーキテクチャ全体の単純さを維持します。
論文 参考訳(メタデータ) (2023-12-18T11:58:03Z) - CNNs for JPEGs: A Study in Computational Cost [45.74830585715129]
畳み込みニューラルネットワーク(CNN)は過去10年間で驚くべき進歩を遂げてきた。
CNNはRGBピクセルから直接データの堅牢な表現を学習することができる。
近年,圧縮領域から直接学習できる深層学習手法が注目されている。
論文 参考訳(メタデータ) (2023-09-20T15:49:38Z) - DFormer: Rethinking RGBD Representation Learning for Semantic
Segmentation [76.81628995237058]
DFormerは、RGB-Dセグメンテーションタスクの転送可能な表現を学ぶための新しいフレームワークである。
ImageNet-1Kから画像深度ペアを使用してバックボーンを事前トレーニングする。
DFormerは2つのRGB-Dタスクで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-09-18T11:09:11Z) - A Strong Transfer Baseline for RGB-D Fusion in Vision Transformers [0.0]
単視点3Dオブジェクト認識のためのRGB-Dドメインで事前学習したViTを転送するためのレシピを提案する。
我々の適応したViTsは、ワシントン州で95.1%の精度で評価され、このベンチマークで新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-10-03T12:08:09Z) - Learning RAW-to-sRGB Mappings with Inaccurately Aligned Supervision [76.41657124981549]
本稿では,画像アライメントとRAW-to-sRGBマッピングのための共同学習モデルを提案する。
実験の結果,本手法はZRRおよびSR-RAWデータセットの最先端に対して良好に動作することがわかった。
論文 参考訳(メタデータ) (2021-08-18T12:41:36Z) - Less is More: Accelerating Faster Neural Networks Straight from JPEG [1.9214041945441434]
JPEG圧縮データ処理のための畳み込みニューラルネットワークの高速化方法を示す。
学習戦略を活用し、DCT入力をフル活用し、計算の複雑さを低減します。
その結果、データ駆動方式で全てのdct入力を組み合わせる方法を学ぶことは、手で捨てるよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-04-01T01:21:24Z) - CNNs for JPEGs: A Study in Computational Cost [49.97673761305336]
畳み込みニューラルネットワーク(CNN)は過去10年間で驚くべき進歩を遂げてきた。
CNNはRGBピクセルから直接データの堅牢な表現を学習することができる。
近年,圧縮領域から直接学習できる深層学習手法が注目されている。
論文 参考訳(メタデータ) (2020-12-26T15:00:10Z) - MobileSal: Extremely Efficient RGB-D Salient Object Detection [62.04876251927581]
本稿では,効率的なRGB-Dサルエント物体検出(SOD)に焦点を当てた新しいネットワーク,メソッド名を提案する。
RGB-D SODのためのモバイルネットワークの特徴表現能力を強化するために,暗黙的深度復元(IDR)手法を提案する。
IDRとCPRを組み込むことで、7つの挑戦的なRGB-D SODデータセット上のsArtメソッドに対してメソッド名が好ましい。
論文 参考訳(メタデータ) (2020-12-24T04:36:42Z) - Learning to Improve Image Compression without Changing the Standard
Decoder [100.32492297717056]
本稿では,標準デコーダによる符号化性能向上のための学習法を提案する。
具体的には、DCT係数の分布を最適化する周波数領域事前編集法を提案する。
JPEGデコーダは変更しないので、広く使われている標準JPEGデコーダで画像を見る際には、我々のアプローチが適用可能である。
論文 参考訳(メタデータ) (2020-09-27T19:24:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。