論文の概要: Transformer for Image Quality Assessment
- arxiv url: http://arxiv.org/abs/2101.01097v2
- Date: Fri, 8 Jan 2021 12:12:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-18 06:02:08.852576
- Title: Transformer for Image Quality Assessment
- Title(参考訳): 画像品質評価用変圧器
- Authors: Junyong You, Jari Korhonen
- Abstract要約: 畳み込みニューラルネットワーク(CNN)により抽出された特徴マップの上部に浅層トランスフォーマーエンコーダを用いるアーキテクチャを提案する。
適応位置埋め込みは、任意の解像度で画像を処理するためにトランスフォーマーエンコーダで使用されます。
提案したTRIQアーキテクチャは優れた性能を実現する。
- 参考スコア(独自算出の注目度): 14.975436239088312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer has become the new standard method in natural language processing
(NLP), and it also attracts research interests in computer vision area. In this
paper we investigate the application of Transformer in Image Quality (TRIQ)
assessment. Following the original Transformer encoder employed in Vision
Transformer (ViT), we propose an architecture of using a shallow Transformer
encoder on the top of a feature map extracted by convolution neural networks
(CNN). Adaptive positional embedding is employed in the Transformer encoder to
handle images with arbitrary resolutions. Different settings of Transformer
architectures have been investigated on publicly available image quality
databases. We have found that the proposed TRIQ architecture achieves
outstanding performance. The implementation of TRIQ is published on Github
(https://github.com/junyongyou/triq).
- Abstract(参考訳): トランスフォーマーは自然言語処理(NLP)における新しい標準手法となり、コンピュータビジョン領域の研究にも関心が寄せられている。
本稿では,画像品質評価における Transformer の適用について検討する。
視覚トランスフォーマー (vit) で使用されるオリジナルのトランスコーダに続いて, 畳み込みニューラルネットワーク (cnn) によって抽出された特徴地図の上に, 浅いトランスコーダを用いるアーキテクチャを提案する。
任意の解像度で画像を処理するために、Transformerエンコーダに適応的な位置埋め込みが使用される。
Transformerアーキテクチャのさまざまな設定が、公開されている画像品質データベース上で調査されている。
提案したTRIQアーキテクチャは優れた性能を実現する。
triqの実装はgithubで公開されている(https://github.com/junyongyou/triq)。
関連論文リスト
- Pure Transformer with Integrated Experts for Scene Text Recognition [11.089203218000854]
シーンテキスト認識(STR:Scene text recognition)は、自然のシーンの収穫された画像のテキストを読む作業である。
近年、変換器アーキテクチャはSTRで広く採用されており、長期依存を捕捉する強力な能力を示している。
本研究は,ハイブリッドCNN変換器モデルより優れた単純なベースラインとして,トランスフォーマーのみのモデルを提案する。
論文 参考訳(メタデータ) (2022-11-09T15:26:59Z) - Aggregated Pyramid Vision Transformer: Split-transform-merge Strategy
for Image Recognition without Convolutions [1.1032962642000486]
この作業は、Vision Transformerをピラミッドアーキテクチャと組み合わせ、Split-merge-transformを使用してグループエンコーダを提案し、ネットワークアーキテクチャAggregated Pyramid Vision Transformer (APVT) と命名する。
CIFAR-10データセット上で画像分類タスクを行い、COCO 2017データセット上でオブジェクト検出タスクを実行する。
論文 参考訳(メタデータ) (2022-03-02T09:14:28Z) - Towards End-to-End Image Compression and Analysis with Transformers [99.50111380056043]
本稿では,クラウドベースの画像分類アプリケーションを対象として,トランスフォーマーを用いたエンドツーエンドの画像圧縮解析モデルを提案する。
我々は、圧縮された特徴から画像分類を行うためにビジョントランスフォーマー(ViT)モデルを再設計し、トランスフォーマーからの長期情報を用いて画像圧縮を容易にすることを目指している。
画像圧縮と分類作業の両方において,提案モデルの有効性を示す実験結果が得られた。
論文 参考訳(メタデータ) (2021-12-17T03:28:14Z) - GLiT: Neural Architecture Search for Global and Local Image Transformer [114.8051035856023]
画像認識のためのトランスフォーマーアーキテクチャを改良するために,最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
画像分類では,ResNetファミリーやベースラインのViTよりも,より差別的で効率的なトランスフォーマー変種を見つけることができる。
論文 参考訳(メタデータ) (2021-07-07T00:48:09Z) - Fully Transformer Networks for Semantic ImageSegmentation [26.037770622551882]
エンコーダデコーダをベースとしたFully Transformer Networks (FTN) を用いた意味的イメージセグメンテーションのための新しいフレームワークについて検討する。
階層的特徴を段階的に学習するエンコーダとして、標準視覚変換器(ViT)の計算複雑性を低減しつつ、ピラミッド群変換器(PGT)を提案する。
次に,セマンティックイメージセグメンテーションのためのPGTエンコーダの複数レベルから意味レベルと空間レベル情報を融合する特徴ピラミッドトランス (FPT) を提案する。
論文 参考訳(メタデータ) (2021-06-08T05:15:28Z) - Transformer-Based Deep Image Matching for Generalizable Person
Re-identification [114.56752624945142]
画像マッチングと距離学習にトランスフォーマーを適用する可能性について検討する。
視覚変換器 (ViT) とデコーダ付きバニラ変換器 (Vanilla Transformer) はイメージ・ツー・イメージ・アテンションの欠如により画像マッチングに適していないことがわかった。
そこで本研究では,クエリキーの類似性のみを保ちながら,ソフトマックス重み付けによる注意の完全な実装を省略する,単純化されたデコーダを提案する。
論文 参考訳(メタデータ) (2021-05-30T05:38:33Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Transformer in Transformer [59.066686278998354]
パッチレベルとピクセルレベルの表現の両方をモデル化するトランスフォーマー・iN変換器(TNT)モデルを提案する。
我々のTNTはImageNetで811.3%の精度を達成しており、同様の計算コストでDeiTよりも1.5%高い。
論文 参考訳(メタデータ) (2021-02-27T03:12:16Z) - Training Vision Transformers for Image Retrieval [32.09708181236154]
我々は、画像記述子を生成するために視覚変換器を採用し、結果のモデルをメートル法学習目標で訓練する。
コンボリューションに基づくアプローチよりも,トランスフォーマーの一貫性と顕著な改善が示された。
論文 参考訳(メタデータ) (2021-02-10T18:56:41Z) - CPTR: Full Transformer Network for Image Captioning [15.869556479220984]
CaPtion TransformeR(CPTR)は、シーケンシャル化された生画像をTransformerへの入力として取り込む。
cnn+transformer"設計パラダイムと比較すると,本モデルは最初からすべてのエンコーダ層でグローバルコンテキストをモデル化することができる。
論文 参考訳(メタデータ) (2021-01-26T14:29:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。