論文の概要: XCAT -- Lightweight Quantized Single Image Super-Resolution using
Heterogeneous Group Convolutions and Cross Concatenation
- arxiv url: http://arxiv.org/abs/2208.14655v1
- Date: Wed, 31 Aug 2022 06:57:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-01 13:45:59.871233
- Title: XCAT -- Lightweight Quantized Single Image Super-Resolution using
Heterogeneous Group Convolutions and Cross Concatenation
- Title(参考訳): XCAT -- 異種群畳み込みと交差結合を用いた軽量量子化単一画像超解法
- Authors: Mustafa Ayazoglu, Bahri Batuhan Bilecen
- Abstract要約: 我々は,XCATという,モバイルデバイス用の軽量で単一画像超解像ネットワークを提案する。
XCATがCross Concatenations(HXBlock)を備えた異種グループ畳み込みブロックを導入
XCATは、320msのMali-G71 MP2 GPUと30ms(NCHW)と8.8ms(NHWC)のSynaptics Dolphin NPUでリアルタイムに動作する。
- 参考スコア(独自算出の注目度): 7.6146285961466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a lightweight, single image super-resolution network for mobile
devices, named XCAT. XCAT introduces Heterogeneous Group Convolution Blocks
with Cross Concatenations (HXBlock). The heterogeneous split of the input
channels to the group convolution blocks reduces the number of operations, and
cross concatenation allows for information flow between the intermediate input
tensors of cascaded HXBlocks. Cross concatenations inside HXBlocks can also
avoid using more expensive operations like 1x1 convolutions. To further prev
ent expensive tensor copy operations, XCAT utilizes non-trainable convolution
kernels to apply up sampling operations. Designed with integer quantization in
mind, XCAT also utilizes several techniques on training, like intensity-based
data augmentation. Integer quantized XCAT operates in real time on Mali-G71 MP2
GPU with 320ms, and on Synaptics Dolphin NPU with 30ms (NCHW) and 8.8ms (NHWC),
suitable for real-time applications.
- Abstract(参考訳): 我々は,XCATという,モバイルデバイス用の軽量で単一画像超解像ネットワークを提案する。
XCATは、HXBlock (Heterogeneous Group Convolution Blocks with Cross Concatenations)を導入した。
群畳み込みブロックへの入力チャネルの不均一な分割は演算数を減少させ、クロス連結はカスケードhxブロックの中間入力テンソル間の情報フローを可能にする。
HXBlocks内のクロスコンカニオンは、1x1コンボリューションのような高価な操作を避けることもできる。
XCATは、高価なテンソルコピー操作に先立って、トレーニング不能な畳み込みカーネルを使用してサンプリング操作を適用する。
XCATは整数量子化を念頭に設計されており、強度ベースのデータ拡張のようなトレーニング技術も活用している。
Integer Quantized XCATは、320msのMali-G71 MP2 GPUと30ms(NCHW)と8.8ms(NHWC)のSynaptics Dolphin NPUでリアルタイムに動作する。
関連論文リスト
- Chameleon: An Efficient FHE Scheme Switching Acceleration on GPUs [17.536473118470774]
ホモモルフィック暗号化(英語版) (FHE) は暗号化されたデータの直接計算を可能にする。
既存の取り組みは主に、データ型と関数の多様な要求を満たすことができない単一クラスFHEスキームに重点を置いている。
本稿では,Chameleon という高速GPUベース FHE スイッチングアクセラレーション方式を提案する。
論文 参考訳(メタデータ) (2024-10-08T11:37:49Z) - FLUX: Fast Software-based Communication Overlap On GPUs Through Kernel Fusion [9.5114389643299]
本稿では,GPUに依存する計算で通信遅延を著しく隠蔽する新しいFlux法を提案する。
Fluxは核融合によって最大96%の通信を重複させる可能性がある。
全体としては、様々なGPU世代と相互接続を持つ128GPUのクラスタ上で、Megatron-LM上でのトレーニングのために、最大1.24倍のスピードアップを達成することができる。
論文 参考訳(メタデータ) (2024-06-11T00:17:39Z) - JAX-Fluids 2.0: Towards HPC for Differentiable CFD of Compressible
Two-phase Flows [0.0]
JAX-Fluidsは、圧縮可能な単相および二相フロー用に設計されたPythonベースの完全微分可能CFDソルバである。
我々は、GPU(NVIDIA A100グラフィックスカード最大512)とTPU(最大1024 TPU v3コア)のHPCシステム上で効率よくスケールするJAXプリミティブ演算を利用した並列化戦略を導入する。
新しいコードバージョンは、強化された2相フローモデリング機能を提供する。
論文 参考訳(メタデータ) (2024-02-07T19:05:27Z) - TransXNet: Learning Both Global and Local Dynamics with a Dual Dynamic
Token Mixer for Visual Recognition [71.6546914957701]
本稿では,グローバルな情報と局所的な詳細を入力依存の方法で集約する軽量なDual Dynamic Token Mixer (D-Mixer)を提案する。
我々は、新しいハイブリッドCNN-TransformerビジョンバックボーンネットワークであるTransXNetを設計するために、基本的なビルディングブロックとしてD-Mixerを使用している。
ImageNet-1Kの画像分類タスクでは、TransXNet-TはSwing-Tを0.3%上回り、計算コストの半分以下である。
論文 参考訳(メタデータ) (2023-10-30T09:35:56Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Efficient stereo matching on embedded GPUs with zero-means cross
correlation [8.446808526407738]
本稿では,Jetson Tx2組込みGPU上でのゼロ平均正規化クロス相関(ZNCC)マッチングコスト計算アルゴリズムの高速化手法を提案する。
本手法では,ZNCCの高速化のために,Zigzag方式で対象画像をスキャンし,隣接する画素に対して1ピクセルの計算を効率的に再利用する。
本システムでは,最大1280x384ピクセル画像のJetson Tx2 GPUにおいて,32fpsのリアルタイム処理速度を示した。
論文 参考訳(メタデータ) (2022-12-01T13:03:38Z) - SegNeXt: Rethinking Convolutional Attention Design for Semantic
Segmentation [100.89770978711464]
セマンティックセグメンテーションのための単純な畳み込みネットワークアーキテクチャであるSegNeXtを提案する。
コンボリューションアテンションは、トランスフォーマーの自己認識メカニズムよりも、文脈情報をエンコードするより効率的で効果的な方法であることを示す。
論文 参考訳(メタデータ) (2022-09-18T14:33:49Z) - UNeXt: MLP-based Rapid Medical Image Segmentation Network [80.16644725886968]
UNetとその最新の拡張であるTransUNetは、ここ数年で主要な医療画像分割手法である。
画像分割のための畳み込み多層パーセプトロンネットワークUNeXtを提案する。
パラメータ数を72倍に減らし,計算複雑性を68倍に減らし,推論速度を10倍に改善し,セグメンテーション性能も向上した。
論文 参考訳(メタデータ) (2022-03-09T18:58:22Z) - A Design Flow for Mapping Spiking Neural Networks to Many-Core
Neuromorphic Hardware [4.527975416669432]
多コアニューロモルフィックハードウェアは、大規模な機械学習モデルを実行することが期待されている。
設計の複雑さに対処するためには、リアルタイムのパフォーマンスを保証するために予測可能な設計フローが必要である。
スパイクニューラルネットワークを多コアニューロモルフィックハードウェアにマッピングするためのSDFGに基づく設計フローを提案する。
論文 参考訳(メタデータ) (2021-08-27T18:08:08Z) - XCiT: Cross-Covariance Image Transformers [73.33400159139708]
本稿では,トークンではなく機能チャネルをまたいで機能する自己注意の「伝達」バージョンを提案する。
その結果、XCAはトークン数に線形複雑さを持ち、高解像度画像の効率的な処理を可能にする。
論文 参考訳(メタデータ) (2021-06-17T17:33:35Z) - XSepConv: Extremely Separated Convolution [60.90871656244126]
極めて分離された畳み込みブロック(XSepConv)を提案する。
空間的に分離可能な畳み込みを奥行きの畳み込みに融合させ、大きなカーネルの計算コストとパラメータサイズの両方を削減する。
XSepConvは、大規模なカーネルサイズを持つバニラ奥行きの畳み込みの効率的な代替として設計されている。
論文 参考訳(メタデータ) (2020-02-27T11:46:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。