論文の概要: EFormer: Enhanced Transformer towards Semantic-Contour Features of
Foreground for Portraits Matting
- arxiv url: http://arxiv.org/abs/2308.12831v2
- Date: Thu, 30 Nov 2023 08:59:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 18:09:21.758676
- Title: EFormer: Enhanced Transformer towards Semantic-Contour Features of
Foreground for Portraits Matting
- Title(参考訳): eformer: ポートレート・マッティングのための前景の意味的輪郭特徴への拡張トランスフォーマー
- Authors: Zitao Wang and Qiguang Miao and Peipei Zhao and Yue Xi
- Abstract要約: 本稿では,低周波セマンティクスと高周波輪郭特徴の両方に対するモデルの注意力を高めるためにEFormerを提案する。
我々は,低周波な意味的特徴と高周波な輪郭特徴の両方を正確に捉えるために,意味的・輪郭検出装置(SCD)を構築した。
そして,輪郭端抽出部と意味抽出部を設計し,改良された高周波輪郭特徴と完全低周波意味情報を抽出する。
- 参考スコア(独自算出の注目度): 6.468859319728341
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The portrait matting task aims to extract an alpha matte with complete
semantics and finely-detailed contours. In comparison to CNN-based approaches,
transformers with self-attention module have a better capacity to capture
long-range dependencies and low-frequency semantic information of a portrait.
However, the recent research shows that self-attention mechanism struggles with
modeling high-frequency contour information and capturing fine contour details,
which can lead to bias while predicting the portrait's contours. To deal with
this issue, we propose EFormer to enhance the model's attention towards both of
the low-frequency semantic and high-frequency contour features. For the
high-frequency contours, our research demonstrates that cross-attention module
between different resolutions can guide our model to allocate attention
appropriately to these contour regions. Supported on this, we can successfully
extract the high-frequency detail information around the portrait's contours,
which are previously ignored by self-attention. Based on cross-attention
module, we further build a semantic and contour detector (SCD) to accurately
capture both of the low-frequency semantic and high-frequency contour features.
And we design contour-edge extraction branch and semantic extraction branch to
extract refined high-frequency contour features and complete low-frequency
semantic information, respectively. Finally, we fuse the two kinds of features
and leverage segmentation head to generate a predicted portrait matte.
Experiments on VideoMatte240K (JPEG SD Format) and Adobe Image Matting (AIM)
datasets demonstrate that EFormer outperforms previous portrait matte methods.
- Abstract(参考訳): ポートレート・マットング・タスクは、完全なセマンティクスと細かな輪郭を持つアルファマットを抽出することを目的としている。
CNNベースのアプローチと比較して、自己アテンションモジュールを持つトランスフォーマーは、長距離依存やポートレートの低周波セマンティック情報をキャプチャする能力が優れている。
しかし,近年の研究では,高頻度輪郭情報のモデル化や細かな輪郭の詳細の把握に自己着脱機構が苦労していることが示されている。
この問題に対処するため、我々はEFormerを提案し、低周波セマンティクスと高周波輪郭特徴の両方に対するモデルの注意力を高める。
高周波輪郭については,異なる解像度間のクロス・アテンション・モジュールが,これらの輪郭領域に対して適切な注意を向けるためにモデルが導かれることを実証する。
画像の輪郭に関する高頻度の詳細情報を,これまで自己注意で無視されていた情報から抽出することができる。
クロスアテンションモジュールをベースとして,低周波セマンティックと高周波コンターの両方の特徴を正確に捉えるためのセマンティック・コンター検出器(SCD)を構築した。
また,洗練された高周波輪郭特徴と完全低周波意味情報を抽出するために,輪郭エッジ抽出分枝と意味抽出分枝を設計する。
最後に、2種類の特徴を融合させ、セグメンテーションヘッドを利用して予測されたポートレートマットを生成する。
VideoMatte240K(JPEG SD Format)とAdobe Image Matting(AIM)データセットの実験は、EFormerが以前のポートレートマットメソッドより優れていることを示している。
関連論文リスト
- ARCNet: An Asymmetric Residual Wavelet Column Correction Network for
Infrared Image Destriping [28.037564161552446]
赤外画像デストリップは、劣化した画像から高品質なコンテンツを復元しようとする。
最近の研究は、先行知識を利用して劣化した画像からストライプノイズを分離することで、この課題に対処している。
画像デストリップのための非対称残留ウェーブレット列補正ネットワーク(ARCNet)を導入する。
論文 参考訳(メタデータ) (2024-01-28T06:23:55Z) - DiffPortrait3D: Controllable Diffusion for Zero-Shot Portrait View Synthesis [18.64688172651478]
本稿では,DiffPortrait3Dについて述べる。DiffPortrait3Dは,3次元一貫性のあるフォトリアリスティック・ノベルビューを合成できる条件拡散モデルである。
一つのRGB入力が与えられた場合、我々は、新しいカメラビューから表現された、可塑性だが一貫した顔の詳細を合成することを目指している。
我々は、我々の挑戦的インザワイルドとマルチビューのベンチマークにおいて、質的にも定量的にも、最先端の結果を実証する。
論文 参考訳(メタデータ) (2023-12-20T13:31:11Z) - DiffusionMat: Alpha Matting as Sequential Refinement Learning [87.76572845943929]
DiffusionMatは、粗いアルファマットから洗練されたアルファマットへの移行に拡散モデルを利用する画像マッチングフレームワークである。
補正モジュールは、各復調ステップで出力を調整し、最終的な結果が入力画像の構造と一致していることを保証する。
その結果,DiffusionMatは既存の手法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-11-22T17:16:44Z) - Cross-Image Attention for Zero-Shot Appearance Transfer [68.43651329067393]
画像間の意味的対応を暗黙的に確立するクロスイメージアテンション機構を導入する。
ノイズの多い潜在コードを操作する3つのメカニズムと、デノナイジングプロセスを通してモデルの内部表現を利用する。
実験により,本手法は多種多様な対象カテゴリに対して有効であり,形状,大きさ,視点の変動に頑健であることが示された。
論文 参考訳(メタデータ) (2023-11-06T18:33:24Z) - Multitask AET with Orthogonal Tangent Regularity for Dark Object
Detection [84.52197307286681]
暗黒環境下でのオブジェクト検出を強化するために,新しいマルチタスク自動符号化変換(MAET)モデルを提案する。
自己超越的な方法で、MAETは、現実的な照明劣化変換を符号化して復号することで、本質的な視覚構造を学習する。
我々は,合成および実世界のデータセットを用いて最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2022-05-06T16:27:14Z) - Generalizing Face Forgery Detection with High-frequency Features [63.33397573649408]
現在のCNNベースの検出器は、メソッド固有の色テクスチャに過度に適合するため、一般化に失敗する傾向にある。
フェースフォージェリ検出に高周波雑音を用いることを提案する。
1つは、複数のスケールで高周波ノイズを抽出するマルチスケールの高周波特徴抽出モジュールである。
2つ目は、低レベルRGB特徴抽出器を導く残差誘導空間注意モジュールで、新しい視点からフォージェリートレースにもっと集中する。
論文 参考訳(メタデータ) (2021-03-23T08:19:21Z) - Towards Enhancing Fine-grained Details for Image Matting [40.17208660790402]
微視的詳細の復元は低レベルだが高精細なテクスチャの特徴に依存していると論じている。
本モデルは,従来のエンコーダデコーダセマンティックパスと,独立したダウンサンプリングフリーテクスチャ補償パスから構成される。
本手法は,Compposition-1kデータセットの以前の開始方法よりも優れている。
論文 参考訳(メタデータ) (2021-01-22T13:20:23Z) - Portrait Neural Radiance Fields from a Single Image [68.66958204066721]
本稿では,単一のポートレートからニューラルラジアンス場(NeRF)を推定する手法を提案する。
体積密度を暗黙的にモデル化する多層パーセプトロン(MLP)の重みを事前に訓練することを提案する。
非知覚面の一般化を改善するため、3次元顔変形モデルによって近似される正準座標空間を訓練する。
本手法は,制御されたキャプチャを用いて定量的に評価し,実画像への一般化を実証し,最先端画像に対して良好な結果を示す。
論文 参考訳(メタデータ) (2020-12-10T18:59:59Z) - Interpretable Detail-Fidelity Attention Network for Single Image
Super-Resolution [89.1947690981471]
本研究では,スムースとディテールを段階的に分割・収束的に処理する,目的・解釈可能なディテール・ファイダリティ・アテンション・ネットワークを提案する。
特に,詳細推論において顕著な解釈可能な特徴表現のためのヘシアンフィルタを提案する。
実験により,提案手法は最先端手法よりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2020-09-28T08:31:23Z) - Blur-Attention: A boosting mechanism for non-uniform blurred image
restoration [27.075713246257596]
非一様ぼかし画像の特徴を動的に捉えるためのぼかしアテンションモジュールを提案する。
条件生成の逆方向のフレームワークにぼやけたアテンションネットワークを導入することにより、エンド・ツー・エンドのブラインド・モーション・デブロアリング法を提案する。
実験結果から,PSNR,SSIM,主観的視覚的品質の両面において,本手法の劣化能力は優れた客観的性能を示した。
論文 参考訳(メタデータ) (2020-08-19T16:07:06Z) - AlphaNet: An Attention Guided Deep Network for Automatic Image Matting [0.0]
本研究では,画像マッチングのためのエンドツーエンドソリューション,すなわち自然画像から前景オブジェクトを高精度に抽出する手法を提案する。
本稿では,セマンティックセグメンテーションと深層画像マッチングプロセスをひとつのネットワークに同化して意味行列を生成する手法を提案する。
また、高品質なアルファマットを用いたファッションeコマース型データセットを構築し、画像マッチングのトレーニングと評価を容易にする。
論文 参考訳(メタデータ) (2020-03-07T17:25:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。