論文の概要: ASSET: Autoregressive Semantic Scene Editing with Transformers at High
Resolutions
- arxiv url: http://arxiv.org/abs/2205.12231v1
- Date: Tue, 24 May 2022 17:39:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-25 15:03:28.288967
- Title: ASSET: Autoregressive Semantic Scene Editing with Transformers at High
Resolutions
- Title(参考訳): ASSET:高解像度トランスフォーマーを用いた自動回帰セマンティックシーン編集
- Authors: Difan Liu, Sandesh Shetty, Tobias Hinz, Matthew Fisher, Richard Zhang,
Taesung Park, Evangelos Kalogerakis
- Abstract要約: 私たちのアーキテクチャは、新しい注意機構を備えたトランスフォーマーに基づいています。
我々のキーとなる考え方は、高解像度の画像解像度で抽出された濃密な注意によって導かれる、トランスフォーマーの注意行列を高解像度でスパース化することである。
本手法の有効性を示した質的,定量的な結果とユーザスタディについて述べる。
- 参考スコア(独自算出の注目度): 28.956280590967808
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present ASSET, a neural architecture for automatically modifying an input
high-resolution image according to a user's edits on its semantic segmentation
map. Our architecture is based on a transformer with a novel attention
mechanism. Our key idea is to sparsify the transformer's attention matrix at
high resolutions, guided by dense attention extracted at lower image
resolutions. While previous attention mechanisms are computationally too
expensive for handling high-resolution images or are overly constrained within
specific image regions hampering long-range interactions, our novel attention
mechanism is both computationally efficient and effective. Our sparsified
attention mechanism is able to capture long-range interactions and context,
leading to synthesizing interesting phenomena in scenes, such as reflections of
landscapes onto water or flora consistent with the rest of the landscape, that
were not possible to generate reliably with previous convnets and transformer
approaches. We present qualitative and quantitative results, along with user
studies, demonstrating the effectiveness of our method.
- Abstract(参考訳): 本稿では,ユーザのセマンティックセグメンテーションマップ上で,入力された高解像度画像を自動的に修正するニューラルネットワークであるASSETを提案する。
我々のアーキテクチャは、新しい注意機構を備えたトランスフォーマーに基づいている。
我々の重要なアイデアは、トランスフォーマーの注意行列を高分解能でスパース化することであり、低解像度で抽出された濃密な注意によって導かれる。
従来のアテンションメカニズムは高解像度画像を扱うには計算に高すぎるか、特定の画像領域に過剰に制約されているかのどちらかであるが、新しいアテンションメカニズムは計算的に効率的かつ効果的である。
私たちの散在した注意機構は、長距離の相互作用と文脈を捉えることができ、以前のコンベネットやトランスフォーマーのアプローチでは確実に生成できなかった、水面への風景の反射や風景の他の部分と一致する花などの興味深い現象をシーンで合成することができる。
本手法の有効性を示すために,ユーザ研究とともに質的,定量的な結果を示す。
関連論文リスト
- Empowering Image Recovery_ A Multi-Attention Approach [96.25892659985342]
Diverse Restormer (DART) は、様々なソースからの情報を統合して復元課題に対処する画像復元手法である。
DARTは、全体的なパフォーマンスを高めるために、カスタマイズされたアテンションメカニズムを採用している。
5つの復元作業における評価は、常にDARTを最前線に配置する。
論文 参考訳(メタデータ) (2024-04-06T12:50:08Z) - IPT-V2: Efficient Image Processing Transformer using Hierarchical Attentions [26.09373405194564]
我々は,IPTV2と呼ばれる階層的な注意を払って,効率的な画像処理トランスフォーマアーキテクチャを提案する。
我々は、局所的およびグローバルな受容領域における適切なトークン相互作用を得るために、焦点コンテキスト自己注意(FCSA)とグローバルグリッド自己注意(GGSA)を採用する。
提案した IPT-V2 は,様々な画像処理タスクにおいて,デノナイズ,デブロアリング,デコライニングを網羅し,従来の手法よりも性能と計算の複雑さのトレードオフを得る。
論文 参考訳(メタデータ) (2024-03-31T10:01:20Z) - High-resolution power equipment recognition based on improved
self-attention [11.24310344443672]
本稿では,この問題に適した自己注意型ネットワークの改良について紹介する。
提案モデルは,基礎的ネットワーク,領域提案ネットワーク,対象領域の抽出とセグメント化のためのモジュール,最終的な予測ネットワークの4つの重要なコンポーネントから構成される。
ディープ・セルフアテンション・ネットワークの予測メカニズムは、画像の意味的コンテキストをユニークに取り入れ、認識性能を大幅に改善する。
論文 参考訳(メタデータ) (2023-11-06T20:51:37Z) - Efficient-VQGAN: Towards High-Resolution Image Generation with Efficient
Vision Transformers [41.78970081787674]
本稿では,高解像度画像生成のためのより効率的な2段階フレームワークを提案する。
我々は,従来手法で用いたグローバルアテンション機構の代わりに,局所アテンションに基づく量子化モデルを用いる。
このアプローチは、より高速な生成速度、より高速な生成忠実度、解像度の向上をもたらす。
論文 参考訳(メタデータ) (2023-10-09T04:38:52Z) - Image Deblurring by Exploring In-depth Properties of Transformer [86.7039249037193]
我々は、事前訓練された視覚変換器(ViT)から抽出した深い特徴を活用し、定量的な測定値によって測定された性能を犠牲にすることなく、回復した画像のシャープ化を促進する。
得られた画像と対象画像の変換器特徴を比較することにより、事前学習された変換器は、高解像度のぼやけた意味情報を提供する。
特徴をベクトルとみなし、抽出された画像から抽出された表現とユークリッド空間における対象表現との差を計算する。
論文 参考訳(メタデータ) (2023-03-24T14:14:25Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - MAT: Mask-Aware Transformer for Large Hole Image Inpainting [79.67039090195527]
本稿では, 変圧器と畳み込みの利点を統一する, 大穴塗装の新しいモデルを提案する。
実験では、複数のベンチマークデータセット上で、新しいモデルの最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-29T06:36:17Z) - Blending Anti-Aliasing into Vision Transformer [57.88274087198552]
不連続なパッチ単位のトークン化プロセスは、ジャッジされたアーティファクトをアテンションマップに暗黙的に導入する。
エイリアス効果は、離散パターンを使用して高周波または連続的な情報を生成し、区別不能な歪みをもたらす。
本稿では,前述の問題を緩和するためのAliasing-Reduction Module(ARM)を提案する。
論文 参考訳(メタデータ) (2021-10-28T14:30:02Z) - Grid Partitioned Attention: Efficient TransformerApproximation with
Inductive Bias for High Resolution Detail Generation [3.4373727078460665]
本稿では,GPA (Grid Partitioned Attention) を提案する。
本稿では,新しいアテンション層を導入し,その複雑さと,メモリ使用量とモデルパワーとのトレードオフの調整方法について分析する。
我々の貢献は、(i)新しいGPA層のアルゴリズムとコード1、(ii)新しい注目コピーアーキテクチャ、(iii)人間のポーズモーフィング生成ベンチマークにおける新しい最先端の実験結果である。
論文 参考訳(メタデータ) (2021-07-08T10:37:23Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Attention-based Image Upsampling [14.676228848773157]
我々は、注意メカニズムを使用して別の正統的な操作を置き換える方法を示しています。
注意に基づくアップサンプリングが従来のアップサンプリング手法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2020-12-17T19:58:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。