論文の概要: EFormer: Enhanced Transformer towards Semantic-Contour Features of
Foreground for Portraits Matting
- arxiv url: http://arxiv.org/abs/2308.12831v2
- Date: Thu, 30 Nov 2023 08:59:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 18:09:21.758676
- Title: EFormer: Enhanced Transformer towards Semantic-Contour Features of
Foreground for Portraits Matting
- Title(参考訳): eformer: ポートレート・マッティングのための前景の意味的輪郭特徴への拡張トランスフォーマー
- Authors: Zitao Wang and Qiguang Miao and Peipei Zhao and Yue Xi
- Abstract要約: 本稿では,低周波セマンティクスと高周波輪郭特徴の両方に対するモデルの注意力を高めるためにEFormerを提案する。
我々は,低周波な意味的特徴と高周波な輪郭特徴の両方を正確に捉えるために,意味的・輪郭検出装置(SCD)を構築した。
そして,輪郭端抽出部と意味抽出部を設計し,改良された高周波輪郭特徴と完全低周波意味情報を抽出する。
- 参考スコア(独自算出の注目度): 6.468859319728341
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The portrait matting task aims to extract an alpha matte with complete
semantics and finely-detailed contours. In comparison to CNN-based approaches,
transformers with self-attention module have a better capacity to capture
long-range dependencies and low-frequency semantic information of a portrait.
However, the recent research shows that self-attention mechanism struggles with
modeling high-frequency contour information and capturing fine contour details,
which can lead to bias while predicting the portrait's contours. To deal with
this issue, we propose EFormer to enhance the model's attention towards both of
the low-frequency semantic and high-frequency contour features. For the
high-frequency contours, our research demonstrates that cross-attention module
between different resolutions can guide our model to allocate attention
appropriately to these contour regions. Supported on this, we can successfully
extract the high-frequency detail information around the portrait's contours,
which are previously ignored by self-attention. Based on cross-attention
module, we further build a semantic and contour detector (SCD) to accurately
capture both of the low-frequency semantic and high-frequency contour features.
And we design contour-edge extraction branch and semantic extraction branch to
extract refined high-frequency contour features and complete low-frequency
semantic information, respectively. Finally, we fuse the two kinds of features
and leverage segmentation head to generate a predicted portrait matte.
Experiments on VideoMatte240K (JPEG SD Format) and Adobe Image Matting (AIM)
datasets demonstrate that EFormer outperforms previous portrait matte methods.
- Abstract(参考訳): ポートレート・マットング・タスクは、完全なセマンティクスと細かな輪郭を持つアルファマットを抽出することを目的としている。
CNNベースのアプローチと比較して、自己アテンションモジュールを持つトランスフォーマーは、長距離依存やポートレートの低周波セマンティック情報をキャプチャする能力が優れている。
しかし,近年の研究では,高頻度輪郭情報のモデル化や細かな輪郭の詳細の把握に自己着脱機構が苦労していることが示されている。
この問題に対処するため、我々はEFormerを提案し、低周波セマンティクスと高周波輪郭特徴の両方に対するモデルの注意力を高める。
高周波輪郭については,異なる解像度間のクロス・アテンション・モジュールが,これらの輪郭領域に対して適切な注意を向けるためにモデルが導かれることを実証する。
画像の輪郭に関する高頻度の詳細情報を,これまで自己注意で無視されていた情報から抽出することができる。
クロスアテンションモジュールをベースとして,低周波セマンティックと高周波コンターの両方の特徴を正確に捉えるためのセマンティック・コンター検出器(SCD)を構築した。
また,洗練された高周波輪郭特徴と完全低周波意味情報を抽出するために,輪郭エッジ抽出分枝と意味抽出分枝を設計する。
最後に、2種類の特徴を融合させ、セグメンテーションヘッドを利用して予測されたポートレートマットを生成する。
VideoMatte240K(JPEG SD Format)とAdobe Image Matting(AIM)データセットの実験は、EFormerが以前のポートレートマットメソッドより優れていることを示している。
関連論文リスト
- High-Precision Dichotomous Image Segmentation via Probing Diffusion Capacity [69.32473738284374]
本稿では,拡散モデルにおける事前学習されたU-Netのポテンシャルを利用する拡散駆動セグメンテーションモデルDiffDISを提案する。
SDモデルに先立って、頑健な一般化機能とリッチで多目的な画像表現を活用することにより、高忠実で詳細な生成を保ちながら、推論時間を著しく短縮する。
DIS5Kデータセットの実験は、DiffDISの優位性を示し、合理化された推論プロセスを通じて最先端の結果を達成する。
論文 参考訳(メタデータ) (2024-10-14T02:49:23Z) - ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。
本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文 参考訳(メタデータ) (2024-08-10T08:53:41Z) - DiffPortrait3D: Controllable Diffusion for Zero-Shot Portrait View Synthesis [18.64688172651478]
本稿では,DiffPortrait3Dについて述べる。DiffPortrait3Dは,3次元一貫性のあるフォトリアリスティック・ノベルビューを合成できる条件拡散モデルである。
一つのRGB入力が与えられた場合、我々は、新しいカメラビューから表現された、可塑性だが一貫した顔の詳細を合成することを目指している。
我々は、我々の挑戦的インザワイルドとマルチビューのベンチマークにおいて、質的にも定量的にも、最先端の結果を実証する。
論文 参考訳(メタデータ) (2023-12-20T13:31:11Z) - DiffusionMat: Alpha Matting as Sequential Refinement Learning [87.76572845943929]
DiffusionMatは、粗いアルファマットから洗練されたアルファマットへの移行に拡散モデルを利用する画像マッチングフレームワークである。
補正モジュールは、各復調ステップで出力を調整し、最終的な結果が入力画像の構造と一致していることを保証する。
その結果,DiffusionMatは既存の手法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-11-22T17:16:44Z) - Cross-Image Attention for Zero-Shot Appearance Transfer [68.43651329067393]
画像間の意味的対応を暗黙的に確立するクロスイメージアテンション機構を導入する。
ノイズの多い潜在コードを操作する3つのメカニズムと、デノナイジングプロセスを通してモデルの内部表現を利用する。
実験により,本手法は多種多様な対象カテゴリに対して有効であり,形状,大きさ,視点の変動に頑健であることが示された。
論文 参考訳(メタデータ) (2023-11-06T18:33:24Z) - Multitask AET with Orthogonal Tangent Regularity for Dark Object
Detection [84.52197307286681]
暗黒環境下でのオブジェクト検出を強化するために,新しいマルチタスク自動符号化変換(MAET)モデルを提案する。
自己超越的な方法で、MAETは、現実的な照明劣化変換を符号化して復号することで、本質的な視覚構造を学習する。
我々は,合成および実世界のデータセットを用いて最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2022-05-06T16:27:14Z) - Towards Enhancing Fine-grained Details for Image Matting [40.17208660790402]
微視的詳細の復元は低レベルだが高精細なテクスチャの特徴に依存していると論じている。
本モデルは,従来のエンコーダデコーダセマンティックパスと,独立したダウンサンプリングフリーテクスチャ補償パスから構成される。
本手法は,Compposition-1kデータセットの以前の開始方法よりも優れている。
論文 参考訳(メタデータ) (2021-01-22T13:20:23Z) - Portrait Neural Radiance Fields from a Single Image [68.66958204066721]
本稿では,単一のポートレートからニューラルラジアンス場(NeRF)を推定する手法を提案する。
体積密度を暗黙的にモデル化する多層パーセプトロン(MLP)の重みを事前に訓練することを提案する。
非知覚面の一般化を改善するため、3次元顔変形モデルによって近似される正準座標空間を訓練する。
本手法は,制御されたキャプチャを用いて定量的に評価し,実画像への一般化を実証し,最先端画像に対して良好な結果を示す。
論文 参考訳(メタデータ) (2020-12-10T18:59:59Z) - AlphaNet: An Attention Guided Deep Network for Automatic Image Matting [0.0]
本研究では,画像マッチングのためのエンドツーエンドソリューション,すなわち自然画像から前景オブジェクトを高精度に抽出する手法を提案する。
本稿では,セマンティックセグメンテーションと深層画像マッチングプロセスをひとつのネットワークに同化して意味行列を生成する手法を提案する。
また、高品質なアルファマットを用いたファッションeコマース型データセットを構築し、画像マッチングのトレーニングと評価を容易にする。
論文 参考訳(メタデータ) (2020-03-07T17:25:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。