Fugu-MT 論文翻訳(概要): The Image Local Autoregressive Transformer

論文の概要: The Image Local Autoregressive Transformer

arxiv url: http://arxiv.org/abs/2106.02514v1
Date: Fri, 4 Jun 2021 14:33:25 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-07 20:15:35.317924
Title: The Image Local Autoregressive Transformer
Title（参考訳）: 画像局所自己回帰変換器
Authors: Chenjie Cao, Yuxin Hong, Xiang Li, Chengrong Wang, Chengming Xu, XiangYang Xue, Yanwei Fu
Abstract要約: 画像局所自己回帰変換器(iLAT)を提案する。我々のiLATは、注目マスクと畳み込み機構の局所自己回帰変換器(LA)により、新しい局所離散表現を学習する。 iLATは、ポーズ誘導人物画像合成や顔編集など、様々な局所誘導画像合成に基づいて評価される。
参考スコア（独自算出の注目度）: 57.26219681948945
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently, AutoRegressive (AR) models for the whole image generation empowered by transformers have achieved comparable or even better performance to Generative Adversarial Networks (GANs). Unfortunately, directly applying such AR models to edit/change local image regions, may suffer from the problems of missing global information, slow inference speed, and information leakage of local guidance. To address these limitations, we propose a novel model -- image Local Autoregressive Transformer (iLAT), to better facilitate the locally guided image synthesis. Our iLAT learns the novel local discrete representations, by the newly proposed local autoregressive (LA) transformer of the attention mask and convolution mechanism. Thus iLAT can efficiently synthesize the local image regions by key guidance information. Our iLAT is evaluated on various locally guided image syntheses, such as pose-guided person image synthesis and face editing. Both the quantitative and qualitative results show the efficacy of our model.
Abstract（参考訳）: 近年、トランスフォーマーによってパワーアップされた画像生成全体のAutoRegressive(AR)モデルは、GAN(Generative Adversarial Networks)と同等あるいはそれ以上のパフォーマンスを達成した。残念ながら、そのようなARモデルをローカル画像領域の編集/変更に直接適用することは、グローバルな情報の欠如、推論速度の遅さ、ローカルガイダンスの情報漏洩といった問題に悩まされる可能性がある。これらの制約に対処するため,我々は,局所的に誘導される画像合成をより容易にするための新しいモデルであるイメージ・ローカル自己回帰トランスフォーマ(ilat)を提案する。我々のiLATは、注目マスクと畳み込み機構の局所自己回帰変換器(LA)により、新しい局所離散表現を学習する。これにより、キーガイダンス情報により局所画像領域を効率的に合成することができる。 iLATは、ポーズ誘導人物画像合成や顔編集など、様々な局所誘導画像合成に基づいて評価される。定量的および質的結果から,本モデルの有効性が示された。

関連論文リスト

GAS: Generative Avatar Synthesis from a Single Image [54.95198111659466]
一つの画像からビュー一貫性と時間的コヒーレントなアバターを合成するための、一般化可能で統一されたフレームワークを導入する。提案手法は, 回帰に基づく3次元再構成と拡散モデルの生成能力を組み合わせることで, このギャップを埋めるものである。
論文参考訳（メタデータ） (2025-02-10T19:00:39Z)
Improving Synthetic Image Detection Towards Generalization: An Image Transformation Perspective [45.210030086193775]
現在の合成画像検出(SID)パイプラインは、主に普遍的なアーティファクト機能を構築することを目的としている。 3つの簡単な画像変換を持つ軽量かつ効率的な検出器SAFEを提案する。我々のパイプラインは、新しい最先端のパフォーマンスを実現し、既存の手法に対する平均精度は4.5%、平均精度は2.9%向上した。
論文参考訳（メタデータ） (2024-08-13T09:01:12Z)
IPT-V2: Efficient Image Processing Transformer using Hierarchical Attentions [26.09373405194564]
我々は,IPTV2と呼ばれる階層的な注意を払って,効率的な画像処理トランスフォーマアーキテクチャを提案する。我々は、局所的およびグローバルな受容領域における適切なトークン相互作用を得るために、焦点コンテキスト自己注意(FCSA)とグローバルグリッド自己注意(GGSA)を採用する。提案した IPT-V2 は,様々な画像処理タスクにおいて,デノナイズ,デブロアリング,デコライニングを網羅し,従来の手法よりも性能と計算の複雑さのトレードオフを得る。
論文参考訳（メタデータ） (2024-03-31T10:01:20Z)
Lightweight Vision Transformer with Bidirectional Interaction [63.65115590184169]
本研究では,視覚変換器の局所的・グローバル的情報をモデル化するためのFASA機構を提案する。 FASAに基づいて、我々はFAT(Fully Adaptive Transformer)ファミリーという軽量なビジョンバックボーンのファミリーを開発した。
論文参考訳（メタデータ） (2023-06-01T06:56:41Z)
Recursive Generalization Transformer for Image Super-Resolution [108.67898547357127]
本稿では,大域空間情報を捕捉し,高分解能画像に適した画像SRのための再帰一般化変換器(RGT)を提案する。我々は,RG-SAと局所的自己意識を組み合わせることで,グローバルな文脈の活用を促進する。我々のRGTは最近の最先端の手法よりも定量的に質的に優れている。
論文参考訳（メタデータ） (2023-03-11T10:44:44Z)
StraIT: Non-autoregressive Generation with Stratified Image Transformer [63.158996766036736]
Stratified Image Transformer(StraIT)は、純粋な非自己回帰(NAR)生成モデルである。実験の結果,StraIT は NAR 生成を著しく改善し,既存の DM および AR 手法より優れていた。
論文参考訳（メタデータ） (2023-03-01T18:59:33Z)
Efficient and Explicit Modelling of Image Hierarchies for Image Restoration [120.35246456398738]
本研究では,画像復元のためのグローバル,地域,地域領域における画像階層を効率的に,かつ明示的にモデル化する機構を提案する。そこで本研究では, 空間と時間的複雑性のバランスが良く, 固定されたストライプ自己注意を提案する。そこで我々はGlobal, Regional, Local Rangeにおける画像階層を明示的にモデル化するGRLと呼ばれる新しいネットワークアーキテクチャを提案する。
論文参考訳（メタデータ） (2023-03-01T18:59:29Z)
TcGAN: Semantic-Aware and Structure-Preserved GANs with Individual Vision Transformer for Fast Arbitrary One-Shot Image Generation [11.207512995742999]
画像の内部パッチから学習する生成的敵ネットワークを持つワンショット画像生成(OSG)は、世界中で注目を集めている。本稿では,既存のワンショット画像生成手法の欠点を克服するために,個々の視覚変換器を用いた構造保存方式TcGANを提案する。
論文参考訳（メタデータ） (2023-02-16T03:05:59Z)
No-Reference Image Quality Assessment via Transformers, Relative Ranking, and Self-Consistency [38.88541492121366]
No-Reference Image Quality Assessment (NR-IQA) の目的は、主観的評価に応じて知覚的画質を推定することである。本稿では、変圧器における畳み込みニューラルネットワーク(CNN)と自己保持機構の利点を生かしたハイブリッドアプローチを利用して、NR-IQAタスクに対処する新しいモデルを提案する。
論文参考訳（メタデータ） (2021-08-16T02:07:08Z)
LocalViT: Analyzing Locality in Vision Transformers [101.53997555864822]
本稿では,視覚変換器における局所性メカニズムの影響について検討する。フィードフォワードネットワークに視覚変換器に局所性を加える。 ImageNet2012分類では、ローカリティ強化トランスフォーマーがベースラインを上回っている。
論文参考訳（メタデータ） (2021-04-12T17:59:22Z)
You Only Need Adversarial Supervision for Semantic Image Synthesis [84.83711654797342]
我々は,高品質な結果を得るためには敵対的監督のみを必要とする,新しい簡易ganモデルを提案する。本モデルによって合成された画像はより多様であり,実画像の色やテクスチャに密接に従っている。
論文参考訳（メタデータ） (2020-12-08T23:00:48Z)
Domain-invariant Similarity Activation Map Contrastive Learning for Retrieval-based Long-term Visual Localization [30.203072945001136]
本研究では,多領域画像変換による領域不変特徴抽出のために,確率論的に一般アーキテクチャを定式化する。そして、より精密な局所化のために、新しい勾配重み付き類似性活性化写像損失(Grad-SAM)を組み込んだ。 CMUSeasonsデータセットにおける提案手法の有効性を検証するために大規模な実験が行われた。我々の性能は、最先端のイメージベースのローカライゼーションベースラインを中あるいは高精度で上回るか、あるいは上回る。
論文参考訳（メタデータ） (2020-09-16T14:43:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。