論文の概要: WITT: A Wireless Image Transmission Transformer for Semantic
Communications
- arxiv url: http://arxiv.org/abs/2211.00937v1
- Date: Wed, 2 Nov 2022 07:50:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 14:50:17.517572
- Title: WITT: A Wireless Image Transmission Transformer for Semantic
Communications
- Title(参考訳): WITT:セマンティック通信のための無線画像伝送変換器
- Authors: Ke Yang, Sixian Wang, Jincheng Dai, Kailin Tan, Kai Niu, Ping Zhang
- Abstract要約: 我々は、Wi-Fi画像トランス(WITT)を実現するための新しいバックボーンとして、視覚変換器(ViT)を再設計する。
WITTは、無線チャネルの効果を考慮して、画像伝送に高度に最適化されている。
我々の実験は、WITTが様々な画像解像度、歪みメトリクス、チャネル条件に対してより良い性能が得られることを検証した。
- 参考スコア(独自算出の注目度): 11.480385893433802
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we aim to redesign the vision Transformer (ViT) as a new
backbone to realize semantic image transmission, termed wireless image
transmission transformer (WITT). Previous works build upon convolutional neural
networks (CNNs), which are inefficient in capturing global dependencies,
resulting in degraded end-to-end transmission performance especially for
high-resolution images. To tackle this, the proposed WITT employs Swin
Transformers as a more capable backbone to extract long-range information.
Different from ViTs in image classification tasks, WITT is highly optimized for
image transmission while considering the effect of the wireless channel.
Specifically, we propose a spatial modulation module to scale the latent
representations according to channel state information, which enhances the
ability of a single model to deal with various channel conditions. As a result,
extensive experiments verify that our WITT attains better performance for
different image resolutions, distortion metrics, and channel conditions. The
code is available at https://github.com/KeYang8/WITT.
- Abstract(参考訳): 本稿では,視覚変換器(ViT)を新たなバックボーンとして再設計し,セマンティック・イメージ・トランスフォーマー(WITT)を実現することを目的とする。
従来の作業は畳み込みニューラルネットワーク(CNN)上に構築されており、グローバルな依存関係の取得には非効率である。
これに対処するため、wittはswinトランスフォーマーをより有能なバックボーンとして採用し、長距離情報を抽出する。
画像分類タスクのViTと異なり、WITTは無線チャネルの効果を考慮して画像伝送に高度に最適化されている。
具体的には,チャネル状態情報に応じて潜在表現をスケールする空間変調モジュールを提案する。
その結果、WITTは様々な画像解像度、歪みメトリクス、チャネル条件に対してより良い性能が得られることが検証された。
コードはhttps://github.com/KeYang8/WITT.comで入手できる。
関連論文リスト
- Depth-Wise Convolutions in Vision Transformers for Efficient Training on Small Datasets [11.95214938154427]
Vision Transformer (ViT)は、イメージをパッチに分割することで、グローバルな情報をキャプチャする。
ViTは、画像やビデオデータセットのトレーニング中に誘導バイアスを欠く。
本稿では,ViTモデルのショートカットとして,軽量なDepth-Wise Convolutionモジュールを提案する。
論文 参考訳(メタデータ) (2024-07-28T04:23:40Z) - Channel Vision Transformers: An Image Is Worth 1 x 16 x 16 Words [7.210982964205077]
Vision Transformer (ViT) は現代のコンピュータビジョンにおいて強力なアーキテクチャとして登場した。
しかし、顕微鏡や衛星画像などの特定の撮像分野への応用は、ユニークな課題を呈している。
本稿では、入力チャネル間の推論を強化するViTアーキテクチャの修正を提案する。
論文 参考訳(メタデータ) (2023-09-28T02:20:59Z) - Patch Is Not All You Need [57.290256181083016]
本稿では,画像の変換を適応的に変換する新しいパターン変換器を提案する。
我々は畳み込みニューラルネットワークを用いて入力画像から様々なパターンを抽出する。
我々は,CIFAR-10とCIFAR-100で最先端のパフォーマンスを達成し,ImageNet上での競合的な結果を得た。
論文 参考訳(メタデータ) (2023-08-21T13:54:00Z) - Explicitly Increasing Input Information Density for Vision Transformers
on Small Datasets [26.257612622358614]
ビジョントランスフォーマーはビジョンタスクにおけるビジョントランスフォーマー(ViT)の実装が成功して以来、近年多くの注目を集めている。
本稿では,周波数領域における入力情報密度を明示的に向上することを提案する。
5つの小規模データセットに対して提案手法の有効性を示す実験を行った。
論文 参考訳(メタデータ) (2022-10-25T20:24:53Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - Wireless Deep Video Semantic Transmission [14.071114007641313]
本稿では,無線チャネル上でのエンドツーエンドビデオ伝送を実現するための,高効率なディープ・ジョイント・ソース・チャネル符号化手法を提案する。
我々のフレームワークはディープビデオセマンティックトランスミッション (DVST) という名前で収集される。
論文 参考訳(メタデータ) (2022-05-26T03:26:43Z) - Vision Transformer with Progressive Sampling [73.60630716500154]
本稿では,識別領域を特定するための反復的・漸進的なサンプリング手法を提案する。
ImageNetでスクラッチからトレーニングされた場合、PS-ViTはトップ1の精度でバニラViTよりも3.8%高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-08-03T18:04:31Z) - Transformer-Based Deep Image Matching for Generalizable Person
Re-identification [114.56752624945142]
画像マッチングと距離学習にトランスフォーマーを適用する可能性について検討する。
視覚変換器 (ViT) とデコーダ付きバニラ変換器 (Vanilla Transformer) はイメージ・ツー・イメージ・アテンションの欠如により画像マッチングに適していないことがわかった。
そこで本研究では,クエリキーの類似性のみを保ちながら,ソフトマックス重み付けによる注意の完全な実装を省略する,単純化されたデコーダを提案する。
論文 参考訳(メタデータ) (2021-05-30T05:38:33Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z) - Multiscale Vision Transformers [79.76412415996892]
本稿では,マルチスケール特徴階層をトランスフォーマモデルに結びつけることで,映像・画像認識のためのマルチスケールビジョントランス (MViT) を提案する。
我々は,視覚信号の密集性を様々な映像認識タスクでモデル化するために,この基本アーキテクチャの事前評価を行う。
論文 参考訳(メタデータ) (2021-04-22T17:59:45Z) - CvT: Introducing Convolutions to Vision Transformers [44.74550305869089]
畳み込み視覚変換器(CvT)は、視覚変換器(ViT)の性能と効率を向上する。
新しいアーキテクチャはViTに畳み込み、両方の設計で最高のものを生み出す。
論文 参考訳(メタデータ) (2021-03-29T17:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。