Fugu-MT 論文翻訳(概要): XCAT -- Lightweight Quantized Single Image Super-Resolution using Heterogeneous Group Convolutions and Cross Concatenation

論文の概要: XCAT -- Lightweight Quantized Single Image Super-Resolution using Heterogeneous Group Convolutions and Cross Concatenation

arxiv url: http://arxiv.org/abs/2208.14655v1
Date: Wed, 31 Aug 2022 06:57:40 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-01 13:45:59.871233
Title: XCAT -- Lightweight Quantized Single Image Super-Resolution using Heterogeneous Group Convolutions and Cross Concatenation
Title（参考訳）: XCAT -- 異種群畳み込みと交差結合を用いた軽量量子化単一画像超解法
Authors: Mustafa Ayazoglu, Bahri Batuhan Bilecen
Abstract要約: 我々は,XCATという,モバイルデバイス用の軽量で単一画像超解像ネットワークを提案する。 XCATがCross Concatenations(HXBlock)を備えた異種グループ畳み込みブロックを導入 XCATは、320msのMali-G71 MP2 GPUと30ms(NCHW)と8.8ms(NHWC)のSynaptics Dolphin NPUでリアルタイムに動作する。
参考スコア（独自算出の注目度）: 7.6146285961466
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose a lightweight, single image super-resolution network for mobile devices, named XCAT. XCAT introduces Heterogeneous Group Convolution Blocks with Cross Concatenations (HXBlock). The heterogeneous split of the input channels to the group convolution blocks reduces the number of operations, and cross concatenation allows for information flow between the intermediate input tensors of cascaded HXBlocks. Cross concatenations inside HXBlocks can also avoid using more expensive operations like 1x1 convolutions. To further prev ent expensive tensor copy operations, XCAT utilizes non-trainable convolution kernels to apply up sampling operations. Designed with integer quantization in mind, XCAT also utilizes several techniques on training, like intensity-based data augmentation. Integer quantized XCAT operates in real time on Mali-G71 MP2 GPU with 320ms, and on Synaptics Dolphin NPU with 30ms (NCHW) and 8.8ms (NHWC), suitable for real-time applications.
Abstract（参考訳）: 我々は,XCATという,モバイルデバイス用の軽量で単一画像超解像ネットワークを提案する。 XCATは、HXBlock (Heterogeneous Group Convolution Blocks with Cross Concatenations)を導入した。群畳み込みブロックへの入力チャネルの不均一な分割は演算数を減少させ、クロス連結はカスケードhxブロックの中間入力テンソル間の情報フローを可能にする。 HXBlocks内のクロスコンカニオンは、1x1コンボリューションのような高価な操作を避けることもできる。 XCATは、高価なテンソルコピー操作に先立って、トレーニング不能な畳み込みカーネルを使用してサンプリング操作を適用する。 XCATは整数量子化を念頭に設計されており、強度ベースのデータ拡張のようなトレーニング技術も活用している。 Integer Quantized XCATは、320msのMali-G71 MP2 GPUと30ms(NCHW)と8.8ms(NHWC)のSynaptics Dolphin NPUでリアルタイムに動作する。

関連論文リスト

Lookup multivariate Kolmogorov-Arnold Networks [5.639419519849473]
高次元線形写像は、現代のディープラーニングモデルのパラメータ数と計算コストの両方を支配している。汎用的なドロップイン置換, ルックアップ多変数Kolmogorov-Arnold Networks (lmKANs)を導入する。 lmKANはキャパシティと推論コストのトレードオフを著しく改善します。
論文参考訳（メタデータ） (2025-09-08T18:00:35Z)
ClusterFusion: Expanding Operator Fusion Scope for LLM Inference via Cluster-Level Collective Primitive [38.22906887556149]
大規模言語モデル(LLM)の復号化は、演算子間での断片化によるレイテンシの低下に悩まされる。本稿では,クラスタレベルの通信プリミティブであるClusterGatherとClusterFusionを紹介する。通信をスケジュールし、演算子融合スコープを拡張するための共同実行フレームワークであるClusterFusionを設計する。
論文参考訳（メタデータ） (2025-08-26T09:29:23Z)
XQuant: Breaking the Memory Wall for LLM Inference with KV Cache Rematerialization [58.92253769255316]
LLM推論はメモリフットプリントと帯域幅の要求のために困難である。 XQuantは、ハードウェアプラットフォームの急速に増加する計算能力を利用して、メモリボトルネックを取り除く。 XQuant-CLは、極端な圧縮のためにX埋め込みの層間類似性を利用する。
論文参考訳（メタデータ） (2025-08-14T06:52:38Z)
EQuARX: Efficient Quantized AllReduce in XLA for Distributed Machine Learning Acceleration [3.757632817011334]
TPU用のXLAコンパイラ(EQuarX)内で、ネイティブな動的ブロックワイドな量子化AllReduceを提案する。 TPUフレンドリーな量子化と通信と計算の深いパイプライン化により、t8精度のEQuARXはベースラインのBF16 AllReduceよりも1.8倍のスピードアップを達成する。
論文参考訳（メタデータ） (2025-06-21T06:54:52Z)
Chameleon: An Efficient FHE Scheme Switching Acceleration on GPUs [17.536473118470774]
ホモモルフィック暗号化(英語版) (FHE) は暗号化されたデータの直接計算を可能にする。既存の取り組みは主に、データ型と関数の多様な要求を満たすことができない単一クラスFHEスキームに重点を置いている。本稿では,Chameleon という高速GPUベース FHE スイッチングアクセラレーション方式を提案する。
論文参考訳（メタデータ） (2024-10-08T11:37:49Z)
FLUX: Fast Software-based Communication Overlap On GPUs Through Kernel Fusion [9.5114389643299]
本稿では,GPUに依存する計算で通信遅延を著しく隠蔽する新しいFlux法を提案する。 Fluxは核融合によって最大96%の通信を重複させる可能性がある。全体としては、様々なGPU世代と相互接続を持つ128GPUのクラスタ上で、Megatron-LM上でのトレーニングのために、最大1.24倍のスピードアップを達成することができる。
論文参考訳（メタデータ） (2024-06-11T00:17:39Z)
JAX-Fluids 2.0: Towards HPC for Differentiable CFD of Compressible Two-phase Flows [0.0]
JAX-Fluidsは、圧縮可能な単相および二相フロー用に設計されたPythonベースの完全微分可能CFDソルバである。我々は、GPU(NVIDIA A100グラフィックスカード最大512)とTPU(最大1024 TPU v3コア)のHPCシステム上で効率よくスケールするJAXプリミティブ演算を利用した並列化戦略を導入する。新しいコードバージョンは、強化された2相フローモデリング機能を提供する。
論文参考訳（メタデータ） (2024-02-07T19:05:27Z)
TransXNet: Learning Both Global and Local Dynamics with a Dual Dynamic Token Mixer for Visual Recognition [71.6546914957701]
本稿では,グローバルな情報と局所的な詳細を入力依存の方法で集約する軽量なDual Dynamic Token Mixer (D-Mixer)を提案する。我々は、新しいハイブリッドCNN-TransformerビジョンバックボーンネットワークであるTransXNetを設計するために、基本的なビルディングブロックとしてD-Mixerを使用している。 ImageNet-1Kの画像分類タスクでは、TransXNet-TはSwing-Tを0.3%上回り、計算コストの半分以下である。
論文参考訳（メタデータ） (2023-10-30T09:35:56Z)
SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文参考訳（メタデータ） (2023-06-13T08:57:54Z)
InceptionNeXt: When Inception Meets ConvNeXt [147.50287103414115]
IncepitonNeXtと呼ばれる一連のネットワークを構築し、高いスループットを享受するだけでなく、競争性能も維持しています。 InceptionNeXtはConvNeXt-Tよりも1.6倍高いトレーニングスループットを実現し、ImageNet-1Kでは0.2%の精度向上を実現している。
論文参考訳（メタデータ） (2023-03-29T17:59:58Z)
Efficient stereo matching on embedded GPUs with zero-means cross correlation [8.446808526407738]
本稿では,Jetson Tx2組込みGPU上でのゼロ平均正規化クロス相関(ZNCC)マッチングコスト計算アルゴリズムの高速化手法を提案する。本手法では,ZNCCの高速化のために,Zigzag方式で対象画像をスキャンし,隣接する画素に対して1ピクセルの計算を効率的に再利用する。本システムでは,最大1280x384ピクセル画像のJetson Tx2 GPUにおいて,32fpsのリアルタイム処理速度を示した。
論文参考訳（メタデータ） (2022-12-01T13:03:38Z)
SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation [100.89770978711464]
セマンティックセグメンテーションのための単純な畳み込みネットワークアーキテクチャであるSegNeXtを提案する。コンボリューションアテンションは、トランスフォーマーの自己認識メカニズムよりも、文脈情報をエンコードするより効率的で効果的な方法であることを示す。
論文参考訳（メタデータ） (2022-09-18T14:33:49Z)
UNeXt: MLP-based Rapid Medical Image Segmentation Network [80.16644725886968]
UNetとその最新の拡張であるTransUNetは、ここ数年で主要な医療画像分割手法である。画像分割のための畳み込み多層パーセプトロンネットワークUNeXtを提案する。パラメータ数を72倍に減らし,計算複雑性を68倍に減らし,推論速度を10倍に改善し,セグメンテーション性能も向上した。
論文参考訳（メタデータ） (2022-03-09T18:58:22Z)
A Design Flow for Mapping Spiking Neural Networks to Many-Core Neuromorphic Hardware [4.527975416669432]
多コアニューロモルフィックハードウェアは、大規模な機械学習モデルを実行することが期待されている。設計の複雑さに対処するためには、リアルタイムのパフォーマンスを保証するために予測可能な設計フローが必要である。スパイクニューラルネットワークを多コアニューロモルフィックハードウェアにマッピングするためのSDFGに基づく設計フローを提案する。
論文参考訳（メタデータ） (2021-08-27T18:08:08Z)
XCiT: Cross-Covariance Image Transformers [73.33400159139708]
本稿では,トークンではなく機能チャネルをまたいで機能する自己注意の「伝達」バージョンを提案する。その結果、XCAはトークン数に線形複雑さを持ち、高解像度画像の効率的な処理を可能にする。
論文参考訳（メタデータ） (2021-06-17T17:33:35Z)
XSepConv: Extremely Separated Convolution [60.90871656244126]
極めて分離された畳み込みブロック(XSepConv)を提案する。空間的に分離可能な畳み込みを奥行きの畳み込みに融合させ、大きなカーネルの計算コストとパラメータサイズの両方を削減する。 XSepConvは、大規模なカーネルサイズを持つバニラ奥行きの畳み込みの効率的な代替として設計されている。
論文参考訳（メタデータ） (2020-02-27T11:46:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。