Fugu-MT 論文翻訳(概要): TFill: Image Completion via a Transformer-Based Architecture

論文の概要: TFill: Image Completion via a Transformer-Based Architecture

arxiv url: http://arxiv.org/abs/2104.00845v1
Date: Fri, 2 Apr 2021 01:42:01 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-05 13:53:51.930985
Title: TFill: Image Completion via a Transformer-Based Architecture
Title（参考訳）: TFill: Transformerベースのアーキテクチャによる画像補完
Authors: Chuanxia Zheng, Tat-Jen Cham, Jianfei Cai
Abstract要約: 画像補完を無方向性シーケンス対シーケンス予測タスクとして扱うことを提案する。トークン表現には,小かつ重複しないRFを持つ制限型CNNを用いる。第2フェーズでは、可視領域と発生領域の外観整合性を向上させるために、新しい注意認識層(aal)を導入する。
参考スコア（独自算出の注目度）: 69.62228639870114
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Bridging distant context interactions is important for high quality image completion with large masks. Previous methods attempting this via deep or large receptive field (RF) convolutions cannot escape from the dominance of nearby interactions, which may be inferior. In this paper, we propose treating image completion as a directionless sequence-to-sequence prediction task, and deploy a transformer to directly capture long-range dependence in the encoder in a first phase. Crucially, we employ a restrictive CNN with small and non-overlapping RF for token representation, which allows the transformer to explicitly model the long-range context relations with equal importance in all layers, without implicitly confounding neighboring tokens when larger RFs are used. In a second phase, to improve appearance consistency between visible and generated regions, a novel attention-aware layer (AAL) is introduced to better exploit distantly related features and also avoid the insular effect of standard attention. Overall, extensive experiments demonstrate superior performance compared to state-of-the-art methods on several datasets.
Abstract（参考訳）: 大きなマスクを用いた高品質な画像補完には,遠隔コンテキストの橋渡しが重要である。より深いまたは大きな受容野(RF)の畳み込みによってこれを試みようとする従来の方法は、近隣の相互作用の支配から逃れることはできない。本稿では,画像補完を無方向シーケンス-シーケンス予測タスクとして扱い,トランスを展開してエンコーダの長距離依存性を第1フェーズで直接キャプチャする手法を提案する。重要な点として,トークン表現に小かつ重複しない制限付きcnnを用い,大きなrfを使用する場合,暗黙的に隣接トークンを結合することなく,トランスフォーマがすべての層において同じ重要性を持つ長距離コンテキスト関係を明示的にモデル化することを可能にする。第2のフェーズでは、可視領域と生成領域間の外観整合性を改善するために、遠隔的特徴をより有効に活用し、標準的注意力の影響を避けるために、新しい注意認識層(AAL)を導入する。全体としては、いくつかのデータセットの最先端手法よりも優れた性能を示す。

関連論文リスト

FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [63.87313550399871]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。 PSTは、画像基礎モデルと潜在空間アライメントによるクロスモーダルな知識伝達を確立する。 FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
論文参考訳（メタデータ） (2025-03-25T15:04:53Z)
NFIG: Autoregressive Image Generation with Next-Frequency Prediction [50.69346038028673]
textbfNext-textbfFrequency textbfImage textbfGeneration (textbfNFIG) は、画像生成プロセスを複数の周波数誘導段階に分解する新しいフレームワークである。提案手法では,まず低周波成分を生成し,より少ないトークンで大域構造を確立する。
論文参考訳（メタデータ） (2025-03-10T08:59:10Z)
Frequency Autoregressive Image Generation with Continuous Tokens [31.833852108014312]
本稿では、周波数プログレッシブ自己回帰(textbfFAR)パラダイムを導入し、連続トークン化器を用いてFARをインスタンス化する。我々は、ImageNetデータセットの総合的な実験を通して、FARの有効性を実証する。
論文参考訳（メタデータ） (2025-03-07T10:34:04Z)
ML-CrAIST: Multi-scale Low-high Frequency Information-based Cross black Attention with Image Super-resolving Transformer [3.686808512438363]
この研究は、ML-CrAISTと呼ばれるトランスフォーマーベースの超解像アーキテクチャを提案する。我々は空間的およびチャネル的自己アテンションを運用し、空間的およびチャネル的両方の次元から画素間相互作用を同時にモデル化する。超解像のためのクロスアテンションブロックを考案し、低周波情報と高周波情報との相関について検討する。
論文参考訳（メタデータ） (2024-08-19T12:23:15Z)
IPT-V2: Efficient Image Processing Transformer using Hierarchical Attentions [26.09373405194564]
我々は,IPTV2と呼ばれる階層的な注意を払って,効率的な画像処理トランスフォーマアーキテクチャを提案する。我々は、局所的およびグローバルな受容領域における適切なトークン相互作用を得るために、焦点コンテキスト自己注意(FCSA)とグローバルグリッド自己注意(GGSA)を採用する。提案した IPT-V2 は,様々な画像処理タスクにおいて,デノナイズ,デブロアリング,デコライニングを網羅し,従来の手法よりも性能と計算の複雑さのトレードオフを得る。
論文参考訳（メタデータ） (2024-03-31T10:01:20Z)
DeblurDiNAT: A Generalizable Transformer for Perceptual Image Deblurring [1.5124439914522694]
DeblurDiNATは汎用的で効率的なエンコーダ・デコーダ変換器であり、地上の真実に近いクリーンな画像を復元する。本稿では,線形フィードフォワードネットワークと非線形デュアルステージ機能融合モジュールを提案する。
論文参考訳（メタデータ） (2024-03-19T21:31:31Z)
Multimodal Transformer Using Cross-Channel attention for Object Detection in Remote Sensing Images [1.662438436885552]
マルチモーダル融合は、複数のモーダルからのデータを融合することで精度を高めることが決定されている。早期に異なるチャネル間の関係をマッピングするための新しいマルチモーダル融合戦略を提案する。本手法は,中期・後期の手法とは対照的に,早期の融合に対処することにより,既存の手法と比較して,競争力や性能に優れる。
論文参考訳（メタデータ） (2023-10-21T00:56:11Z)
Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。 CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。 DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文参考訳（メタデータ） (2023-10-11T12:46:11Z)
Multi-Context Dual Hyper-Prior Neural Image Compression [10.349258638494137]
入力画像から局所的情報と大域的情報の両方を効率的にキャプチャするトランスフォーマーに基づく非線形変換を提案する。また、2つの異なるハイパープライヤを組み込んだ新しいエントロピーモデルを導入し、潜在表現のチャネル間および空間的依存関係をモデル化する。実験の結果,提案するフレームワークは,速度歪み性能の観点から,最先端の手法よりも優れた性能を示すことがわかった。
論文参考訳（メタデータ） (2023-09-19T17:44:44Z)
Improving Misaligned Multi-modality Image Fusion with One-stage Progressive Dense Registration [67.23451452670282]
多モード画像間の相違は、画像融合の課題を引き起こす。マルチスケールプログレッシブ・センス・レジストレーション方式を提案する。このスキームは、一段階最適化のみで粗大な登録を行う。
論文参考訳（メタデータ） (2023-08-22T03:46:24Z)
Learning Image Deraining Transformer Network with Dynamic Dual Self-Attention [46.11162082219387]
本稿では,動的二重自己アテンション(DDSA)を用いた画像デコライニング変換器を提案する。具体的には、トップk近似計算に基づいて、最も有用な類似度値のみを選択し、スパースアテンションを実現する。また,高品質な定位結果を得るためのより正確な表現を実現するために,新しい空間拡張フィードフォワードネットワーク(SEFN)を開発した。
論文参考訳（メタデータ） (2023-08-15T13:59:47Z)
Contextual Learning in Fourier Complex Field for VHR Remote Sensing Images [64.84260544255477]
変圧器を用いたモデルでは、一般解像度(224x224ピクセル)の自然画像から高次文脈関係を学習する優れた可能性を示したそこで本研究では,高次文脈情報のモデル化を行う複雑な自己意識(CSA)機構を提案する。 CSAブロックの様々な層を積み重ねることで、VHR空中画像からグローバルな文脈情報を学習するFourier Complex Transformer(FCT)モデルを提案する。
論文参考訳（メタデータ） (2022-10-28T08:13:33Z)
Graph Reasoning Transformer for Image Parsing [67.76633142645284]
本稿では,画像解析のためのグラフ推論変換器(GReaT)を提案する。従来の変圧器と比較して、GReaTは高い相互作用効率とより目的のある相互作用パターンを有する。その結果、GReaTは、最先端のトランスフォーマーベースラインにわずかに計算オーバーヘッドを伴って、一貫した性能向上を実現していることがわかった。
論文参考訳（メタデータ） (2022-09-20T08:21:37Z)
Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文参考訳（メタデータ） (2020-02-07T03:45:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。