論文の概要: EFormer: Enhanced Transformer towards Semantic-Contour Features of
Foreground for Portraits Matting
- arxiv url: http://arxiv.org/abs/2308.12831v1
- Date: Thu, 24 Aug 2023 14:45:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-25 13:46:18.631438
- Title: EFormer: Enhanced Transformer towards Semantic-Contour Features of
Foreground for Portraits Matting
- Title(参考訳): eformer: ポートレート・マッティングのための前景の意味的輪郭特徴への拡張トランスフォーマー
- Authors: Zitao Wang, Qiguang Miao, Yue Xi
- Abstract要約: 本稿では,モデルが意味的特徴や輪郭的特徴に注意を向けるようにEFormerを提案する。
意味・輪郭特徴の分布を正確に把握する意味・輪郭検出装置(SCD)を構築した。
さらに,輪郭特徴と完全意味情報を改善するために,輪郭端抽出部と意味抽出部を設計する。
- 参考スコア(独自算出の注目度): 7.270349599476265
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The portrait matting task aims to extract an alpha matte with complete
semantics and finely-detailed contours. In comparison to CNN-based approaches,
transformers with self-attention allow a larger receptive field, enabling it to
better capture long-range dependencies and low-frequency semantic information
of a portrait. However, the recent research shows that self-attention mechanism
struggle with modeling high-frequency information and capturing fine contour
details, which can lead to bias while predicting the portrait's contours. To
address the problem, we propose EFormer to enhance the model's attention
towards semantic and contour features. Especially the latter, which is
surrounded by a large amount of high-frequency details. We build a semantic and
contour detector (SCD) to accurately capture the distribution of semantic and
contour features. And we further design contour-edge extraction branch and
semantic extraction branch for refining contour features and complete semantic
information. Finally, we fuse the two kinds of features and leverage the
segmentation head to generate the predicted portrait matte. Remarkably, EFormer
is an end-to-end trimap-free method and boasts a simple structure. Experiments
conducted on VideoMatte240K-JPEGSD and AIM datasets demonstrate that EFormer
outperforms previous portrait matte methods.
- Abstract(参考訳): ポートレート・マットング・タスクは、完全なセマンティクスと細かな輪郭を持つアルファマットを抽出することを目的としている。
CNNベースのアプローチと比較して、自己注意型トランスフォーマーは、より大きな受容野を可能にし、長距離依存やポートレートの低周波セマンティック情報をよりよくキャプチャすることができる。
しかし,近年の研究では,自己着脱機構は高周波情報のモデル化や細かな輪郭の詳細の把握に支障をきたしており,肖像画の輪郭を予測しながらバイアスを生じさせる可能性がある。
この問題に対処するために,semantic と contour 特徴に対するモデルの注意を高めるための eformer を提案する。
特に後者は、大量の高周波の詳細に囲まれている。
意味・輪郭特徴の分布を正確に把握するsemantic and contour detector (scd) を構築した。
また、輪郭特徴と完全意味情報を改善する輪郭エッジ抽出枝と意味抽出枝を更に設計する。
最後に,2種類の特徴を融合させ,セグメンテーションヘッドを利用して予測されたポートレートマットを生成する。
驚くべきことに、eformerはエンドツーエンドのtrimapフリーなメソッドであり、シンプルな構造を持っている。
VideoMatte240K-JPEGSDとAIMデータセットで実施された実験により、EFormerは従来のポートレートマット法よりも優れていることが示された。
関連論文リスト
- ARCNet: An Asymmetric Residual Wavelet Column Correction Network for
Infrared Image Destriping [28.037564161552446]
赤外画像デストリップは、劣化した画像から高品質なコンテンツを復元しようとする。
最近の研究は、先行知識を利用して劣化した画像からストライプノイズを分離することで、この課題に対処している。
画像デストリップのための非対称残留ウェーブレット列補正ネットワーク(ARCNet)を導入する。
論文 参考訳(メタデータ) (2024-01-28T06:23:55Z) - DiffPortrait3D: Controllable Diffusion for Zero-Shot Portrait View Synthesis [18.64688172651478]
本稿では,DiffPortrait3Dについて述べる。DiffPortrait3Dは,3次元一貫性のあるフォトリアリスティック・ノベルビューを合成できる条件拡散モデルである。
一つのRGB入力が与えられた場合、我々は、新しいカメラビューから表現された、可塑性だが一貫した顔の詳細を合成することを目指している。
我々は、我々の挑戦的インザワイルドとマルチビューのベンチマークにおいて、質的にも定量的にも、最先端の結果を実証する。
論文 参考訳(メタデータ) (2023-12-20T13:31:11Z) - DiffusionMat: Alpha Matting as Sequential Refinement Learning [87.76572845943929]
DiffusionMatは、粗いアルファマットから洗練されたアルファマットへの移行に拡散モデルを利用する画像マッチングフレームワークである。
補正モジュールは、各復調ステップで出力を調整し、最終的な結果が入力画像の構造と一致していることを保証する。
その結果,DiffusionMatは既存の手法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-11-22T17:16:44Z) - Cross-Image Attention for Zero-Shot Appearance Transfer [68.43651329067393]
画像間の意味的対応を暗黙的に確立するクロスイメージアテンション機構を導入する。
ノイズの多い潜在コードを操作する3つのメカニズムと、デノナイジングプロセスを通してモデルの内部表現を利用する。
実験により,本手法は多種多様な対象カテゴリに対して有効であり,形状,大きさ,視点の変動に頑健であることが示された。
論文 参考訳(メタデータ) (2023-11-06T18:33:24Z) - Multitask AET with Orthogonal Tangent Regularity for Dark Object
Detection [84.52197307286681]
暗黒環境下でのオブジェクト検出を強化するために,新しいマルチタスク自動符号化変換(MAET)モデルを提案する。
自己超越的な方法で、MAETは、現実的な照明劣化変換を符号化して復号することで、本質的な視覚構造を学習する。
我々は,合成および実世界のデータセットを用いて最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2022-05-06T16:27:14Z) - Generalizing Face Forgery Detection with High-frequency Features [63.33397573649408]
現在のCNNベースの検出器は、メソッド固有の色テクスチャに過度に適合するため、一般化に失敗する傾向にある。
フェースフォージェリ検出に高周波雑音を用いることを提案する。
1つは、複数のスケールで高周波ノイズを抽出するマルチスケールの高周波特徴抽出モジュールである。
2つ目は、低レベルRGB特徴抽出器を導く残差誘導空間注意モジュールで、新しい視点からフォージェリートレースにもっと集中する。
論文 参考訳(メタデータ) (2021-03-23T08:19:21Z) - Towards Enhancing Fine-grained Details for Image Matting [40.17208660790402]
微視的詳細の復元は低レベルだが高精細なテクスチャの特徴に依存していると論じている。
本モデルは,従来のエンコーダデコーダセマンティックパスと,独立したダウンサンプリングフリーテクスチャ補償パスから構成される。
本手法は,Compposition-1kデータセットの以前の開始方法よりも優れている。
論文 参考訳(メタデータ) (2021-01-22T13:20:23Z) - Portrait Neural Radiance Fields from a Single Image [68.66958204066721]
本稿では,単一のポートレートからニューラルラジアンス場(NeRF)を推定する手法を提案する。
体積密度を暗黙的にモデル化する多層パーセプトロン(MLP)の重みを事前に訓練することを提案する。
非知覚面の一般化を改善するため、3次元顔変形モデルによって近似される正準座標空間を訓練する。
本手法は,制御されたキャプチャを用いて定量的に評価し,実画像への一般化を実証し,最先端画像に対して良好な結果を示す。
論文 参考訳(メタデータ) (2020-12-10T18:59:59Z) - Interpretable Detail-Fidelity Attention Network for Single Image
Super-Resolution [89.1947690981471]
本研究では,スムースとディテールを段階的に分割・収束的に処理する,目的・解釈可能なディテール・ファイダリティ・アテンション・ネットワークを提案する。
特に,詳細推論において顕著な解釈可能な特徴表現のためのヘシアンフィルタを提案する。
実験により,提案手法は最先端手法よりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2020-09-28T08:31:23Z) - Blur-Attention: A boosting mechanism for non-uniform blurred image
restoration [27.075713246257596]
非一様ぼかし画像の特徴を動的に捉えるためのぼかしアテンションモジュールを提案する。
条件生成の逆方向のフレームワークにぼやけたアテンションネットワークを導入することにより、エンド・ツー・エンドのブラインド・モーション・デブロアリング法を提案する。
実験結果から,PSNR,SSIM,主観的視覚的品質の両面において,本手法の劣化能力は優れた客観的性能を示した。
論文 参考訳(メタデータ) (2020-08-19T16:07:06Z) - AlphaNet: An Attention Guided Deep Network for Automatic Image Matting [0.0]
本研究では,画像マッチングのためのエンドツーエンドソリューション,すなわち自然画像から前景オブジェクトを高精度に抽出する手法を提案する。
本稿では,セマンティックセグメンテーションと深層画像マッチングプロセスをひとつのネットワークに同化して意味行列を生成する手法を提案する。
また、高品質なアルファマットを用いたファッションeコマース型データセットを構築し、画像マッチングのトレーニングと評価を容易にする。
論文 参考訳(メタデータ) (2020-03-07T17:25:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。