論文の概要: TFill: Image Completion via a Transformer-Based Architecture
- arxiv url: http://arxiv.org/abs/2104.00845v1
- Date: Fri, 2 Apr 2021 01:42:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-05 13:53:51.930985
- Title: TFill: Image Completion via a Transformer-Based Architecture
- Title(参考訳): TFill: Transformerベースのアーキテクチャによる画像補完
- Authors: Chuanxia Zheng, Tat-Jen Cham, Jianfei Cai
- Abstract要約: 画像補完を無方向性シーケンス対シーケンス予測タスクとして扱うことを提案する。
トークン表現には,小かつ重複しないRFを持つ制限型CNNを用いる。
第2フェーズでは、可視領域と発生領域の外観整合性を向上させるために、新しい注意認識層(aal)を導入する。
- 参考スコア(独自算出の注目度): 69.62228639870114
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Bridging distant context interactions is important for high quality image
completion with large masks. Previous methods attempting this via deep or large
receptive field (RF) convolutions cannot escape from the dominance of nearby
interactions, which may be inferior. In this paper, we propose treating image
completion as a directionless sequence-to-sequence prediction task, and deploy
a transformer to directly capture long-range dependence in the encoder in a
first phase. Crucially, we employ a restrictive CNN with small and
non-overlapping RF for token representation, which allows the transformer to
explicitly model the long-range context relations with equal importance in all
layers, without implicitly confounding neighboring tokens when larger RFs are
used. In a second phase, to improve appearance consistency between visible and
generated regions, a novel attention-aware layer (AAL) is introduced to better
exploit distantly related features and also avoid the insular effect of
standard attention. Overall, extensive experiments demonstrate superior
performance compared to state-of-the-art methods on several datasets.
- Abstract(参考訳): 大きなマスクを用いた高品質な画像補完には,遠隔コンテキストの橋渡しが重要である。
より深いまたは大きな受容野(RF)の畳み込みによってこれを試みようとする従来の方法は、近隣の相互作用の支配から逃れることはできない。
本稿では,画像補完を無方向シーケンス-シーケンス予測タスクとして扱い,トランスを展開してエンコーダの長距離依存性を第1フェーズで直接キャプチャする手法を提案する。
重要な点として,トークン表現に小かつ重複しない制限付きcnnを用い,大きなrfを使用する場合,暗黙的に隣接トークンを結合することなく,トランスフォーマがすべての層において同じ重要性を持つ長距離コンテキスト関係を明示的にモデル化することを可能にする。
第2のフェーズでは、可視領域と生成領域間の外観整合性を改善するために、遠隔的特徴をより有効に活用し、標準的注意力の影響を避けるために、新しい注意認識層(AAL)を導入する。
全体としては、いくつかのデータセットの最先端手法よりも優れた性能を示す。
関連論文リスト
- IPT-V2: Efficient Image Processing Transformer using Hierarchical Attentions [26.09373405194564]
我々は,IPTV2と呼ばれる階層的な注意を払って,効率的な画像処理トランスフォーマアーキテクチャを提案する。
我々は、局所的およびグローバルな受容領域における適切なトークン相互作用を得るために、焦点コンテキスト自己注意(FCSA)とグローバルグリッド自己注意(GGSA)を採用する。
提案した IPT-V2 は,様々な画像処理タスクにおいて,デノナイズ,デブロアリング,デコライニングを網羅し,従来の手法よりも性能と計算の複雑さのトレードオフを得る。
論文 参考訳(メタデータ) (2024-03-31T10:01:20Z) - DeblurDiNAT: A Generalizable Transformer for Perceptual Image Deblurring [1.5124439914522694]
DeblurDiNATは汎用的で効率的なエンコーダ・デコーダ変換器であり、地上の真実に近いクリーンな画像を復元する。
本稿では,線形フィードフォワードネットワークと非線形デュアルステージ機能融合モジュールを提案する。
論文 参考訳(メタデータ) (2024-03-19T21:31:31Z) - Multimodal Transformer Using Cross-Channel attention for Object Detection in Remote Sensing Images [1.662438436885552]
マルチモーダル融合は、複数のモーダルからのデータを融合することで精度を高めることが決定されている。
早期に異なるチャネル間の関係をマッピングするための新しいマルチモーダル融合戦略を提案する。
本手法は,中期・後期の手法とは対照的に,早期の融合に対処することにより,既存の手法と比較して,競争力や性能に優れる。
論文 参考訳(メタデータ) (2023-10-21T00:56:11Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Multi-Context Dual Hyper-Prior Neural Image Compression [10.349258638494137]
入力画像から局所的情報と大域的情報の両方を効率的にキャプチャするトランスフォーマーに基づく非線形変換を提案する。
また、2つの異なるハイパープライヤを組み込んだ新しいエントロピーモデルを導入し、潜在表現のチャネル間および空間的依存関係をモデル化する。
実験の結果,提案するフレームワークは,速度歪み性能の観点から,最先端の手法よりも優れた性能を示すことがわかった。
論文 参考訳(メタデータ) (2023-09-19T17:44:44Z) - Improving Misaligned Multi-modality Image Fusion with One-stage
Progressive Dense Registration [67.23451452670282]
多モード画像間の相違は、画像融合の課題を引き起こす。
マルチスケールプログレッシブ・センス・レジストレーション方式を提案する。
このスキームは、一段階最適化のみで粗大な登録を行う。
論文 参考訳(メタデータ) (2023-08-22T03:46:24Z) - Learning Image Deraining Transformer Network with Dynamic Dual
Self-Attention [46.11162082219387]
本稿では,動的二重自己アテンション(DDSA)を用いた画像デコライニング変換器を提案する。
具体的には、トップk近似計算に基づいて、最も有用な類似度値のみを選択し、スパースアテンションを実現する。
また,高品質な定位結果を得るためのより正確な表現を実現するために,新しい空間拡張フィードフォワードネットワーク(SEFN)を開発した。
論文 参考訳(メタデータ) (2023-08-15T13:59:47Z) - Contextual Learning in Fourier Complex Field for VHR Remote Sensing
Images [64.84260544255477]
変圧器を用いたモデルでは、一般解像度(224x224ピクセル)の自然画像から高次文脈関係を学習する優れた可能性を示した
そこで本研究では,高次文脈情報のモデル化を行う複雑な自己意識(CSA)機構を提案する。
CSAブロックの様々な層を積み重ねることで、VHR空中画像からグローバルな文脈情報を学習するFourier Complex Transformer(FCT)モデルを提案する。
論文 参考訳(メタデータ) (2022-10-28T08:13:33Z) - Graph Reasoning Transformer for Image Parsing [67.76633142645284]
本稿では,画像解析のためのグラフ推論変換器(GReaT)を提案する。
従来の変圧器と比較して、GReaTは高い相互作用効率とより目的のある相互作用パターンを有する。
その結果、GReaTは、最先端のトランスフォーマーベースラインにわずかに計算オーバーヘッドを伴って、一貫した性能向上を実現していることがわかった。
論文 参考訳(メタデータ) (2022-09-20T08:21:37Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。