論文の概要: FuseFormer: Fusing Fine-Grained Information in Transformers for Video
Inpainting
- arxiv url: http://arxiv.org/abs/2109.02974v1
- Date: Tue, 7 Sep 2021 10:13:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-08 14:36:59.586406
- Title: FuseFormer: Fusing Fine-Grained Information in Transformers for Video
Inpainting
- Title(参考訳): FuseFormer:ビデオインペインティング用トランスフォーマーの微細な情報を利用する
- Authors: Rui Liu, Hanming Deng, Yangyi Huang, Xiaoyu Shi, Lewei Lu, Wenxiu Sun,
Xiaogang Wang, Jifeng Dai, Hongsheng Li
- Abstract要約: FuseFormerは,微細な機能融合による映像の塗布用に設計されたトランスフォーマーモデルである。
本研究では,2次元構造をモデル化可能な1次元線形層を実現するために,ソフトコンポジションとソフトスプリットをフィードフォワードネットワークに精巧に挿入する。
定量評価と定性評価の両方において,提案したFuseFormerは最先端の手法を超越している。
- 参考スコア(独自算出の注目度): 77.8621673355983
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer, as a strong and flexible architecture for modelling long-range
relations, has been widely explored in vision tasks. However, when used in
video inpainting that requires fine-grained representation, existed method
still suffers from yielding blurry edges in detail due to the hard patch
splitting. Here we aim to tackle this problem by proposing FuseFormer, a
Transformer model designed for video inpainting via fine-grained feature fusion
based on novel Soft Split and Soft Composition operations. The soft split
divides feature map into many patches with given overlapping interval. On the
contrary, the soft composition operates by stitching different patches into a
whole feature map where pixels in overlapping regions are summed up. These two
modules are first used in tokenization before Transformer layers and
de-tokenization after Transformer layers, for effective mapping between tokens
and features. Therefore, sub-patch level information interaction is enabled for
more effective feature propagation between neighboring patches, resulting in
synthesizing vivid content for hole regions in videos. Moreover, in FuseFormer,
we elaborately insert the soft composition and soft split into the feed-forward
network, enabling the 1D linear layers to have the capability of modelling 2D
structure. And, the sub-patch level feature fusion ability is further enhanced.
In both quantitative and qualitative evaluations, our proposed FuseFormer
surpasses state-of-the-art methods. We also conduct detailed analysis to
examine its superiority.
- Abstract(参考訳): 長距離関係をモデル化するための強固で柔軟なアーキテクチャであるtransformerは、視覚タスクで広く研究されている。
しかし, 細粒度表現を必要とする映像インペインティングでは, 硬いパッチ分割により, ディテールのぼやけたエッジを生じることが問題となる。
本稿では,新しいソフトスプリットとソフトコンポジション操作をベースとした微細な機能融合による映像インポーティングのためのトランスフォーマーモデルであるFuseFormerを提案する。
ソフトスプリットは、所定の重複間隔でフィーチャーマップを多くのパッチに分割する。
それとは逆に、ソフトな構成は、異なるパッチを重なり合う領域のピクセルをまとめる特徴マップ全体に縫合することで機能する。
この2つのモジュールは、Transformerレイヤの前にトークン化され、Transformerレイヤの後に非トークン化され、トークンと機能の効果的なマッピングに使用される。
したがって、サブパッチレベルの情報相互作用は、隣接するパッチ間のより効果的な特徴伝搬を可能にし、ビデオ内のホール領域の鮮やかな内容の合成をもたらす。
さらに, fuseformerでは, ソフトな組成とソフトスプリットをフィードフォワードネットワークに精巧に挿入し, 1次元線形層が2次元構造をモデル化する能力を有するようにした。
そして、サブパッチレベルの特徴融合能力をさらに強化する。
定量的評価と定性評価の両方において,提案するfuseformerは最先端手法を上回っている。
また、その優越性を詳細に分析する。
関連論文リスト
- Dynamic Texture Transfer using PatchMatch and Transformers [18.54386654063111]
本稿では,PatchMatch と Transformer を併用した,シンプルかつ効果的なモデルによる動的テクスチャ伝達処理を提案する。
鍵となる考え方は、動的テクスチャ転送のタスクを2つのステージに分解し、ターゲットビデオの開始フレームを所望の動的テクスチャで合成することである。
第2段階では、合成画像を構造に依存しないパッチに分解し、それに対応するパッチを予測する。
論文 参考訳(メタデータ) (2024-02-01T13:58:32Z) - Adaptive Human Matting for Dynamic Videos [62.026375402656754]
Adaptive Matting for Dynamic VideosはAdaMと呼ばれ、背景と背景を同時に区別するフレームワークである。
この目的を達成するために、2つの相互接続ネットワーク設計が採用されている。
提案手法が最近導入したデータセットをベンチマークし,検討した結果,行列が新たなクラス内でのベスト・イン・クラス・ジェネリザビリティを実現することがわかった。
論文 参考訳(メタデータ) (2023-04-12T17:55:59Z) - Xformer: Hybrid X-Shaped Transformer for Image Denoising [114.37510775636811]
本稿では,XformerというハイブリッドX字型視覚変換器について紹介する。
Xformerは、合成および実世界の画像復調タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-03-11T16:32:09Z) - TTVFI: Learning Trajectory-Aware Transformer for Video Frame
Interpolation [50.49396123016185]
ビデオフレーム(VFI)は、2つの連続するフレーム間の中間フレームを合成することを目的としている。
ビデオフレーム補間用トラジェクトリ対応トランス (TTVFI) を提案する。
提案手法は,4つの広く使用されているVFIベンチマークにおいて,他の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2022-07-19T03:37:49Z) - Multi-feature Co-learning for Image Inpainting [2.4571440831539824]
本稿では,画像インペイントのための深層多機能コラーニングネットワークを設計する。
具体的には、まず2つの枝を使って、構造的特徴とテクスチャ的特徴を別々に学習する。
SDFFモジュールはテクスチャ特徴に構造特徴を統合するとともに,テクスチャ特徴を構造特徴の生成補助として利用する。
論文 参考訳(メタデータ) (2022-05-21T12:15:26Z) - Dual-Level Collaborative Transformer for Image Captioning [126.59298716978577]
2つの機能の補完的な利点を実現するために、新しいデュアルレベルコラボレーショントランス(DLCT)ネットワークを紹介します。
さらに,これらの2つの特徴の直接融合によって生じる意味的雑音に対処するために,局所性制約付きクロスアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2021-01-16T15:43:17Z) - Texture Transform Attention for Realistic Image Inpainting [6.275013056564918]
本研究では,細心の注意を払って絵を描いていない領域をより良く生成するテクスチャトランスフォーメーション・アテンション・ネットワークを提案する。
Texture Transform Attentionは、細かいテクスチャと粗いセマンティクスを使用して、新しい再組み立てテクスチャマップを作成するために使用されます。
我々は,公開データセット celeba-hq と places2 を用いて,エンドツーエンドでモデルを評価する。
論文 参考訳(メタデータ) (2020-12-08T06:28:51Z) - Region-adaptive Texture Enhancement for Detailed Person Image Synthesis [86.69934638569815]
RATE-Netは、シャープなテクスチャで人物画像を合成するための新しいフレームワークである。
提案するフレームワークは,テクスチャ強化モジュールを利用して,画像から外観情報を抽出する。
DeepFashionベンチマークデータセットで実施された実験は、既存のネットワークと比較して、我々のフレームワークの優位性を実証した。
論文 参考訳(メタデータ) (2020-05-26T02:33:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。