論文の概要: The Image Local Autoregressive Transformer
- arxiv url: http://arxiv.org/abs/2106.02514v1
- Date: Fri, 4 Jun 2021 14:33:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-07 20:15:35.317924
- Title: The Image Local Autoregressive Transformer
- Title(参考訳): 画像局所自己回帰変換器
- Authors: Chenjie Cao, Yuxin Hong, Xiang Li, Chengrong Wang, Chengming Xu,
XiangYang Xue, Yanwei Fu
- Abstract要約: 画像局所自己回帰変換器(iLAT)を提案する。
我々のiLATは、注目マスクと畳み込み機構の局所自己回帰変換器(LA)により、新しい局所離散表現を学習する。
iLATは、ポーズ誘導人物画像合成や顔編集など、様々な局所誘導画像合成に基づいて評価される。
- 参考スコア(独自算出の注目度): 57.26219681948945
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, AutoRegressive (AR) models for the whole image generation empowered
by transformers have achieved comparable or even better performance to
Generative Adversarial Networks (GANs). Unfortunately, directly applying such
AR models to edit/change local image regions, may suffer from the problems of
missing global information, slow inference speed, and information leakage of
local guidance. To address these limitations, we propose a novel model -- image
Local Autoregressive Transformer (iLAT), to better facilitate the locally
guided image synthesis. Our iLAT learns the novel local discrete
representations, by the newly proposed local autoregressive (LA) transformer of
the attention mask and convolution mechanism. Thus iLAT can efficiently
synthesize the local image regions by key guidance information. Our iLAT is
evaluated on various locally guided image syntheses, such as pose-guided person
image synthesis and face editing. Both the quantitative and qualitative results
show the efficacy of our model.
- Abstract(参考訳): 近年、トランスフォーマーによってパワーアップされた画像生成全体のAutoRegressive(AR)モデルは、GAN(Generative Adversarial Networks)と同等あるいはそれ以上のパフォーマンスを達成した。
残念ながら、そのようなARモデルをローカル画像領域の編集/変更に直接適用することは、グローバルな情報の欠如、推論速度の遅さ、ローカルガイダンスの情報漏洩といった問題に悩まされる可能性がある。
これらの制約に対処するため,我々は,局所的に誘導される画像合成をより容易にするための新しいモデルであるイメージ・ローカル自己回帰トランスフォーマ(ilat)を提案する。
我々のiLATは、注目マスクと畳み込み機構の局所自己回帰変換器(LA)により、新しい局所離散表現を学習する。
これにより、キーガイダンス情報により局所画像領域を効率的に合成することができる。
iLATは、ポーズ誘導人物画像合成や顔編集など、様々な局所誘導画像合成に基づいて評価される。
定量的および質的結果から,本モデルの有効性が示された。
関連論文リスト
- IPT-V2: Efficient Image Processing Transformer using Hierarchical Attentions [26.09373405194564]
我々は,IPTV2と呼ばれる階層的な注意を払って,効率的な画像処理トランスフォーマアーキテクチャを提案する。
我々は、局所的およびグローバルな受容領域における適切なトークン相互作用を得るために、焦点コンテキスト自己注意(FCSA)とグローバルグリッド自己注意(GGSA)を採用する。
提案した IPT-V2 は,様々な画像処理タスクにおいて,デノナイズ,デブロアリング,デコライニングを網羅し,従来の手法よりも性能と計算の複雑さのトレードオフを得る。
論文 参考訳(メタデータ) (2024-03-31T10:01:20Z) - Lightweight Vision Transformer with Bidirectional Interaction [63.65115590184169]
本研究では,視覚変換器の局所的・グローバル的情報をモデル化するためのFASA機構を提案する。
FASAに基づいて、我々はFAT(Fully Adaptive Transformer)ファミリーという軽量なビジョンバックボーンのファミリーを開発した。
論文 参考訳(メタデータ) (2023-06-01T06:56:41Z) - Recursive Generalization Transformer for Image Super-Resolution [108.67898547357127]
本稿では,大域空間情報を捕捉し,高分解能画像に適した画像SRのための再帰一般化変換器(RGT)を提案する。
我々は,RG-SAと局所的自己意識を組み合わせることで,グローバルな文脈の活用を促進する。
我々のRGTは最近の最先端の手法よりも定量的に質的に優れている。
論文 参考訳(メタデータ) (2023-03-11T10:44:44Z) - StraIT: Non-autoregressive Generation with Stratified Image Transformer [63.158996766036736]
Stratified Image Transformer(StraIT)は、純粋な非自己回帰(NAR)生成モデルである。
実験の結果,StraIT は NAR 生成を著しく改善し,既存の DM および AR 手法より優れていた。
論文 参考訳(メタデータ) (2023-03-01T18:59:33Z) - Efficient and Explicit Modelling of Image Hierarchies for Image
Restoration [120.35246456398738]
本研究では,画像復元のためのグローバル,地域,地域領域における画像階層を効率的に,かつ明示的にモデル化する機構を提案する。
そこで本研究では, 空間と時間的複雑性のバランスが良く, 固定されたストライプ自己注意を提案する。
そこで我々はGlobal, Regional, Local Rangeにおける画像階層を明示的にモデル化するGRLと呼ばれる新しいネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-03-01T18:59:29Z) - TcGAN: Semantic-Aware and Structure-Preserved GANs with Individual
Vision Transformer for Fast Arbitrary One-Shot Image Generation [11.207512995742999]
画像の内部パッチから学習する生成的敵ネットワークを持つワンショット画像生成(OSG)は、世界中で注目を集めている。
本稿では,既存のワンショット画像生成手法の欠点を克服するために,個々の視覚変換器を用いた構造保存方式TcGANを提案する。
論文 参考訳(メタデータ) (2023-02-16T03:05:59Z) - No-Reference Image Quality Assessment via Transformers, Relative
Ranking, and Self-Consistency [38.88541492121366]
No-Reference Image Quality Assessment (NR-IQA) の目的は、主観的評価に応じて知覚的画質を推定することである。
本稿では、変圧器における畳み込みニューラルネットワーク(CNN)と自己保持機構の利点を生かしたハイブリッドアプローチを利用して、NR-IQAタスクに対処する新しいモデルを提案する。
論文 参考訳(メタデータ) (2021-08-16T02:07:08Z) - You Only Need Adversarial Supervision for Semantic Image Synthesis [84.83711654797342]
我々は,高品質な結果を得るためには敵対的監督のみを必要とする,新しい簡易ganモデルを提案する。
本モデルによって合成された画像はより多様であり,実画像の色やテクスチャに密接に従っている。
論文 参考訳(メタデータ) (2020-12-08T23:00:48Z) - Domain-invariant Similarity Activation Map Contrastive Learning for
Retrieval-based Long-term Visual Localization [30.203072945001136]
本研究では,多領域画像変換による領域不変特徴抽出のために,確率論的に一般アーキテクチャを定式化する。
そして、より精密な局所化のために、新しい勾配重み付き類似性活性化写像損失(Grad-SAM)を組み込んだ。
CMUSeasonsデータセットにおける提案手法の有効性を検証するために大規模な実験が行われた。
我々の性能は、最先端のイメージベースのローカライゼーションベースラインを中あるいは高精度で上回るか、あるいは上回る。
論文 参考訳(メタデータ) (2020-09-16T14:43:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。