論文の概要: The Image Local Autoregressive Transformer
- arxiv url: http://arxiv.org/abs/2106.02514v1
- Date: Fri, 4 Jun 2021 14:33:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-07 20:15:35.317924
- Title: The Image Local Autoregressive Transformer
- Title(参考訳): 画像局所自己回帰変換器
- Authors: Chenjie Cao, Yuxin Hong, Xiang Li, Chengrong Wang, Chengming Xu,
XiangYang Xue, Yanwei Fu
- Abstract要約: 画像局所自己回帰変換器(iLAT)を提案する。
我々のiLATは、注目マスクと畳み込み機構の局所自己回帰変換器(LA)により、新しい局所離散表現を学習する。
iLATは、ポーズ誘導人物画像合成や顔編集など、様々な局所誘導画像合成に基づいて評価される。
- 参考スコア(独自算出の注目度): 57.26219681948945
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, AutoRegressive (AR) models for the whole image generation empowered
by transformers have achieved comparable or even better performance to
Generative Adversarial Networks (GANs). Unfortunately, directly applying such
AR models to edit/change local image regions, may suffer from the problems of
missing global information, slow inference speed, and information leakage of
local guidance. To address these limitations, we propose a novel model -- image
Local Autoregressive Transformer (iLAT), to better facilitate the locally
guided image synthesis. Our iLAT learns the novel local discrete
representations, by the newly proposed local autoregressive (LA) transformer of
the attention mask and convolution mechanism. Thus iLAT can efficiently
synthesize the local image regions by key guidance information. Our iLAT is
evaluated on various locally guided image syntheses, such as pose-guided person
image synthesis and face editing. Both the quantitative and qualitative results
show the efficacy of our model.
- Abstract(参考訳): 近年、トランスフォーマーによってパワーアップされた画像生成全体のAutoRegressive(AR)モデルは、GAN(Generative Adversarial Networks)と同等あるいはそれ以上のパフォーマンスを達成した。
残念ながら、そのようなARモデルをローカル画像領域の編集/変更に直接適用することは、グローバルな情報の欠如、推論速度の遅さ、ローカルガイダンスの情報漏洩といった問題に悩まされる可能性がある。
これらの制約に対処するため,我々は,局所的に誘導される画像合成をより容易にするための新しいモデルであるイメージ・ローカル自己回帰トランスフォーマ(ilat)を提案する。
我々のiLATは、注目マスクと畳み込み機構の局所自己回帰変換器(LA)により、新しい局所離散表現を学習する。
これにより、キーガイダンス情報により局所画像領域を効率的に合成することができる。
iLATは、ポーズ誘導人物画像合成や顔編集など、様々な局所誘導画像合成に基づいて評価される。
定量的および質的結果から,本モデルの有効性が示された。
関連論文リスト
- GAS: Generative Avatar Synthesis from a Single Image [54.95198111659466]
一つの画像からビュー一貫性と時間的コヒーレントなアバターを合成するための、一般化可能で統一されたフレームワークを導入する。
提案手法は, 回帰に基づく3次元再構成と拡散モデルの生成能力を組み合わせることで, このギャップを埋めるものである。
論文 参考訳(メタデータ) (2025-02-10T19:00:39Z) - Improving Synthetic Image Detection Towards Generalization: An Image Transformation Perspective [45.210030086193775]
現在の合成画像検出(SID)パイプラインは、主に普遍的なアーティファクト機能を構築することを目的としている。
3つの簡単な画像変換を持つ軽量かつ効率的な検出器SAFEを提案する。
我々のパイプラインは、新しい最先端のパフォーマンスを実現し、既存の手法に対する平均精度は4.5%、平均精度は2.9%向上した。
論文 参考訳(メタデータ) (2024-08-13T09:01:12Z) - Recursive Generalization Transformer for Image Super-Resolution [108.67898547357127]
本稿では,大域空間情報を捕捉し,高分解能画像に適した画像SRのための再帰一般化変換器(RGT)を提案する。
我々は,RG-SAと局所的自己意識を組み合わせることで,グローバルな文脈の活用を促進する。
我々のRGTは最近の最先端の手法よりも定量的に質的に優れている。
論文 参考訳(メタデータ) (2023-03-11T10:44:44Z) - StraIT: Non-autoregressive Generation with Stratified Image Transformer [63.158996766036736]
Stratified Image Transformer(StraIT)は、純粋な非自己回帰(NAR)生成モデルである。
実験の結果,StraIT は NAR 生成を著しく改善し,既存の DM および AR 手法より優れていた。
論文 参考訳(メタデータ) (2023-03-01T18:59:33Z) - Efficient and Explicit Modelling of Image Hierarchies for Image
Restoration [120.35246456398738]
本研究では,画像復元のためのグローバル,地域,地域領域における画像階層を効率的に,かつ明示的にモデル化する機構を提案する。
そこで本研究では, 空間と時間的複雑性のバランスが良く, 固定されたストライプ自己注意を提案する。
そこで我々はGlobal, Regional, Local Rangeにおける画像階層を明示的にモデル化するGRLと呼ばれる新しいネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-03-01T18:59:29Z) - TcGAN: Semantic-Aware and Structure-Preserved GANs with Individual
Vision Transformer for Fast Arbitrary One-Shot Image Generation [11.207512995742999]
画像の内部パッチから学習する生成的敵ネットワークを持つワンショット画像生成(OSG)は、世界中で注目を集めている。
本稿では,既存のワンショット画像生成手法の欠点を克服するために,個々の視覚変換器を用いた構造保存方式TcGANを提案する。
論文 参考訳(メタデータ) (2023-02-16T03:05:59Z) - No-Reference Image Quality Assessment via Transformers, Relative
Ranking, and Self-Consistency [38.88541492121366]
No-Reference Image Quality Assessment (NR-IQA) の目的は、主観的評価に応じて知覚的画質を推定することである。
本稿では、変圧器における畳み込みニューラルネットワーク(CNN)と自己保持機構の利点を生かしたハイブリッドアプローチを利用して、NR-IQAタスクに対処する新しいモデルを提案する。
論文 参考訳(メタデータ) (2021-08-16T02:07:08Z) - LocalViT: Analyzing Locality in Vision Transformers [101.53997555864822]
本稿では,視覚変換器における局所性メカニズムの影響について検討する。
フィードフォワードネットワークに視覚変換器に局所性を加える。
ImageNet2012分類では、ローカリティ強化トランスフォーマーがベースラインを上回っている。
論文 参考訳(メタデータ) (2021-04-12T17:59:22Z) - Domain-invariant Similarity Activation Map Contrastive Learning for
Retrieval-based Long-term Visual Localization [30.203072945001136]
本研究では,多領域画像変換による領域不変特徴抽出のために,確率論的に一般アーキテクチャを定式化する。
そして、より精密な局所化のために、新しい勾配重み付き類似性活性化写像損失(Grad-SAM)を組み込んだ。
CMUSeasonsデータセットにおける提案手法の有効性を検証するために大規模な実験が行われた。
我々の性能は、最先端のイメージベースのローカライゼーションベースラインを中あるいは高精度で上回るか、あるいは上回る。
論文 参考訳(メタデータ) (2020-09-16T14:43:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。