論文の概要: TFill: Image Completion via a Transformer-Based Architecture
- arxiv url: http://arxiv.org/abs/2104.00845v1
- Date: Fri, 2 Apr 2021 01:42:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-05 13:53:51.930985
- Title: TFill: Image Completion via a Transformer-Based Architecture
- Title(参考訳): TFill: Transformerベースのアーキテクチャによる画像補完
- Authors: Chuanxia Zheng, Tat-Jen Cham, Jianfei Cai
- Abstract要約: 画像補完を無方向性シーケンス対シーケンス予測タスクとして扱うことを提案する。
トークン表現には,小かつ重複しないRFを持つ制限型CNNを用いる。
第2フェーズでは、可視領域と発生領域の外観整合性を向上させるために、新しい注意認識層(aal)を導入する。
- 参考スコア(独自算出の注目度): 69.62228639870114
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Bridging distant context interactions is important for high quality image
completion with large masks. Previous methods attempting this via deep or large
receptive field (RF) convolutions cannot escape from the dominance of nearby
interactions, which may be inferior. In this paper, we propose treating image
completion as a directionless sequence-to-sequence prediction task, and deploy
a transformer to directly capture long-range dependence in the encoder in a
first phase. Crucially, we employ a restrictive CNN with small and
non-overlapping RF for token representation, which allows the transformer to
explicitly model the long-range context relations with equal importance in all
layers, without implicitly confounding neighboring tokens when larger RFs are
used. In a second phase, to improve appearance consistency between visible and
generated regions, a novel attention-aware layer (AAL) is introduced to better
exploit distantly related features and also avoid the insular effect of
standard attention. Overall, extensive experiments demonstrate superior
performance compared to state-of-the-art methods on several datasets.
- Abstract(参考訳): 大きなマスクを用いた高品質な画像補完には,遠隔コンテキストの橋渡しが重要である。
より深いまたは大きな受容野(RF)の畳み込みによってこれを試みようとする従来の方法は、近隣の相互作用の支配から逃れることはできない。
本稿では,画像補完を無方向シーケンス-シーケンス予測タスクとして扱い,トランスを展開してエンコーダの長距離依存性を第1フェーズで直接キャプチャする手法を提案する。
重要な点として,トークン表現に小かつ重複しない制限付きcnnを用い,大きなrfを使用する場合,暗黙的に隣接トークンを結合することなく,トランスフォーマがすべての層において同じ重要性を持つ長距離コンテキスト関係を明示的にモデル化することを可能にする。
第2のフェーズでは、可視領域と生成領域間の外観整合性を改善するために、遠隔的特徴をより有効に活用し、標準的注意力の影響を避けるために、新しい注意認識層(AAL)を導入する。
全体としては、いくつかのデータセットの最先端手法よりも優れた性能を示す。
関連論文リスト
- Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Multi-Context Dual Hyper-Prior Neural Image Compression [10.349258638494137]
入力画像から局所的情報と大域的情報の両方を効率的にキャプチャするトランスフォーマーに基づく非線形変換を提案する。
また、2つの異なるハイパープライヤを組み込んだ新しいエントロピーモデルを導入し、潜在表現のチャネル間および空間的依存関係をモデル化する。
実験の結果,提案するフレームワークは,速度歪み性能の観点から,最先端の手法よりも優れた性能を示すことがわかった。
論文 参考訳(メタデータ) (2023-09-19T17:44:44Z) - Improving Misaligned Multi-modality Image Fusion with One-stage
Progressive Dense Registration [67.23451452670282]
多モード画像間の相違は、画像融合の課題を引き起こす。
マルチスケールプログレッシブ・センス・レジストレーション方式を提案する。
このスキームは、一段階最適化のみで粗大な登録を行う。
論文 参考訳(メタデータ) (2023-08-22T03:46:24Z) - Learning Image Deraining Transformer Network with Dynamic Dual
Self-Attention [46.11162082219387]
本稿では,動的二重自己アテンション(DDSA)を用いた画像デコライニング変換器を提案する。
具体的には、トップk近似計算に基づいて、最も有用な類似度値のみを選択し、スパースアテンションを実現する。
また,高品質な定位結果を得るためのより正確な表現を実現するために,新しい空間拡張フィードフォワードネットワーク(SEFN)を開発した。
論文 参考訳(メタデータ) (2023-08-15T13:59:47Z) - Contextual Learning in Fourier Complex Field for VHR Remote Sensing
Images [64.84260544255477]
変圧器を用いたモデルでは、一般解像度(224x224ピクセル)の自然画像から高次文脈関係を学習する優れた可能性を示した
そこで本研究では,高次文脈情報のモデル化を行う複雑な自己意識(CSA)機構を提案する。
CSAブロックの様々な層を積み重ねることで、VHR空中画像からグローバルな文脈情報を学習するFourier Complex Transformer(FCT)モデルを提案する。
論文 参考訳(メタデータ) (2022-10-28T08:13:33Z) - Graph Reasoning Transformer for Image Parsing [67.76633142645284]
本稿では,画像解析のためのグラフ推論変換器(GReaT)を提案する。
従来の変圧器と比較して、GReaTは高い相互作用効率とより目的のある相互作用パターンを有する。
その結果、GReaTは、最先端のトランスフォーマーベースラインにわずかに計算オーバーヘッドを伴って、一貫した性能向上を実現していることがわかった。
論文 参考訳(メタデータ) (2022-09-20T08:21:37Z) - CRAFT: Cross-Attentional Flow Transformer for Robust Optical Flow [23.457898451057275]
光フロー推定は、2つの画像間の対応する画素を識別することで2次元運動場を求めることを目的としている。
深層学習に基づく光学フロー法が著しく進歩しているにもかかわらず、動きのぼやけた大きな変位を正確に推定することは依然として困難である。
これは主に、2つの画像の畳み込み特徴のドット積として画素マッチングの基礎となる相関体積が計算されるためである。
本稿では,CRAFT (CRoss-Attentional Flow Transformer) アーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-03-31T09:05:00Z) - Randomized Histogram Matching: A Simple Augmentation for Unsupervised
Domain Adaptation in Overhead Imagery [3.187381965457262]
ランダム化ヒストグラムマッチング(RHM)と呼ばれる高速リアルタイム非教師付きトレーニング増強手法を提案する。
RHMは、最先端の教師なしドメイン適応アプローチと比較して、一貫して類似または優れた性能が得られる。
RHMはまた、オーバーヘッド画像に広く使われている他の可分に単純なアプローチよりも大幅に優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2021-04-28T21:59:54Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。