Fugu-MT 論文翻訳(概要): EFormer: Enhanced Transformer towards Semantic-Contour Features of Foreground for Portraits Matting

論文の概要: EFormer: Enhanced Transformer towards Semantic-Contour Features of Foreground for Portraits Matting

arxiv url: http://arxiv.org/abs/2308.12831v1
Date: Thu, 24 Aug 2023 14:45:03 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-25 13:46:18.631438
Title: EFormer: Enhanced Transformer towards Semantic-Contour Features of Foreground for Portraits Matting
Title（参考訳）: eformer: ポートレート・マッティングのための前景の意味的輪郭特徴への拡張トランスフォーマー
Authors: Zitao Wang, Qiguang Miao, Yue Xi
Abstract要約: 本稿では,モデルが意味的特徴や輪郭的特徴に注意を向けるようにEFormerを提案する。意味・輪郭特徴の分布を正確に把握する意味・輪郭検出装置(SCD)を構築した。さらに,輪郭特徴と完全意味情報を改善するために,輪郭端抽出部と意味抽出部を設計する。
参考スコア（独自算出の注目度）: 7.270349599476265
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The portrait matting task aims to extract an alpha matte with complete semantics and finely-detailed contours. In comparison to CNN-based approaches, transformers with self-attention allow a larger receptive field, enabling it to better capture long-range dependencies and low-frequency semantic information of a portrait. However, the recent research shows that self-attention mechanism struggle with modeling high-frequency information and capturing fine contour details, which can lead to bias while predicting the portrait's contours. To address the problem, we propose EFormer to enhance the model's attention towards semantic and contour features. Especially the latter, which is surrounded by a large amount of high-frequency details. We build a semantic and contour detector (SCD) to accurately capture the distribution of semantic and contour features. And we further design contour-edge extraction branch and semantic extraction branch for refining contour features and complete semantic information. Finally, we fuse the two kinds of features and leverage the segmentation head to generate the predicted portrait matte. Remarkably, EFormer is an end-to-end trimap-free method and boasts a simple structure. Experiments conducted on VideoMatte240K-JPEGSD and AIM datasets demonstrate that EFormer outperforms previous portrait matte methods.
Abstract（参考訳）: ポートレート・マットング・タスクは、完全なセマンティクスと細かな輪郭を持つアルファマットを抽出することを目的としている。 CNNベースのアプローチと比較して、自己注意型トランスフォーマーは、より大きな受容野を可能にし、長距離依存やポートレートの低周波セマンティック情報をよりよくキャプチャすることができる。しかし,近年の研究では,自己着脱機構は高周波情報のモデル化や細かな輪郭の詳細の把握に支障をきたしており,肖像画の輪郭を予測しながらバイアスを生じさせる可能性がある。この問題に対処するために,semantic と contour 特徴に対するモデルの注意を高めるための eformer を提案する。特に後者は、大量の高周波の詳細に囲まれている。意味・輪郭特徴の分布を正確に把握するsemantic and contour detector (scd) を構築した。また、輪郭特徴と完全意味情報を改善する輪郭エッジ抽出枝と意味抽出枝を更に設計する。最後に,2種類の特徴を融合させ,セグメンテーションヘッドを利用して予測されたポートレートマットを生成する。驚くべきことに、eformerはエンドツーエンドのtrimapフリーなメソッドであり、シンプルな構造を持っている。 VideoMatte240K-JPEGSDとAIMデータセットで実施された実験により、EFormerは従来のポートレートマット法よりも優れていることが示された。

関連論文リスト

SparseGS-W: Sparse-View 3D Gaussian Splatting in the Wild with Generative Priors [22.561786156613525]
SparseGS-Wは,非制約画像から大規模シーンを合成する新しいフレームワークである。我々は,高度にスパースな入力から得られる多視点情報の欠如を補うために,幾何学的先行と制約付き拡散の先行を利用する。 SparseGS-Wは、完全な参照メトリクスだけでなく、FID、ClipIQA、MUSIQなどの一般的な非参照メトリクスでも、最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-03-25T08:40:40Z)
High-Precision Dichotomous Image Segmentation via Probing Diffusion Capacity [69.32473738284374]
本稿では,拡散モデルにおける事前学習されたU-Netのポテンシャルを利用する拡散駆動セグメンテーションモデルDiffDISを提案する。 SDモデルに先立って、頑健な一般化機能とリッチで多目的な画像表現を活用することにより、高忠実で詳細な生成を保ちながら、推論時間を著しく短縮する。 DIS5Kデータセットの実験は、DiffDISの優位性を示し、合理化された推論プロセスを通じて最先端の結果を達成する。
論文参考訳（メタデータ） (2024-10-14T02:49:23Z)
ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文参考訳（メタデータ） (2024-08-10T08:53:41Z)
DiffPortrait3D: Controllable Diffusion for Zero-Shot Portrait View Synthesis [18.64688172651478]
本稿では,DiffPortrait3Dについて述べる。DiffPortrait3Dは,3次元一貫性のあるフォトリアリスティック・ノベルビューを合成できる条件拡散モデルである。一つのRGB入力が与えられた場合、我々は、新しいカメラビューから表現された、可塑性だが一貫した顔の詳細を合成することを目指している。我々は、我々の挑戦的インザワイルドとマルチビューのベンチマークにおいて、質的にも定量的にも、最先端の結果を実証する。
論文参考訳（メタデータ） (2023-12-20T13:31:11Z)
DiffusionMat: Alpha Matting as Sequential Refinement Learning [87.76572845943929]
DiffusionMatは、粗いアルファマットから洗練されたアルファマットへの移行に拡散モデルを利用する画像マッチングフレームワークである。補正モジュールは、各復調ステップで出力を調整し、最終的な結果が入力画像の構造と一致していることを保証する。その結果,DiffusionMatは既存の手法よりも優れていたことが示唆された。
論文参考訳（メタデータ） (2023-11-22T17:16:44Z)
Cross-Image Attention for Zero-Shot Appearance Transfer [68.43651329067393]
画像間の意味的対応を暗黙的に確立するクロスイメージアテンション機構を導入する。ノイズの多い潜在コードを操作する3つのメカニズムと、デノナイジングプロセスを通してモデルの内部表現を利用する。実験により,本手法は多種多様な対象カテゴリに対して有効であり,形状,大きさ,視点の変動に頑健であることが示された。
論文参考訳（メタデータ） (2023-11-06T18:33:24Z)
Multitask AET with Orthogonal Tangent Regularity for Dark Object Detection [84.52197307286681]
暗黒環境下でのオブジェクト検出を強化するために,新しいマルチタスク自動符号化変換(MAET)モデルを提案する。自己超越的な方法で、MAETは、現実的な照明劣化変換を符号化して復号することで、本質的な視覚構造を学習する。我々は,合成および実世界のデータセットを用いて最先端のパフォーマンスを達成した。
論文参考訳（メタデータ） (2022-05-06T16:27:14Z)
Towards Enhancing Fine-grained Details for Image Matting [40.17208660790402]
微視的詳細の復元は低レベルだが高精細なテクスチャの特徴に依存していると論じている。本モデルは,従来のエンコーダデコーダセマンティックパスと,独立したダウンサンプリングフリーテクスチャ補償パスから構成される。本手法は,Compposition-1kデータセットの以前の開始方法よりも優れている。
論文参考訳（メタデータ） (2021-01-22T13:20:23Z)
Portrait Neural Radiance Fields from a Single Image [68.66958204066721]
本稿では,単一のポートレートからニューラルラジアンス場(NeRF)を推定する手法を提案する。体積密度を暗黙的にモデル化する多層パーセプトロン(MLP)の重みを事前に訓練することを提案する。非知覚面の一般化を改善するため、3次元顔変形モデルによって近似される正準座標空間を訓練する。本手法は,制御されたキャプチャを用いて定量的に評価し,実画像への一般化を実証し,最先端画像に対して良好な結果を示す。
論文参考訳（メタデータ） (2020-12-10T18:59:59Z)
AlphaNet: An Attention Guided Deep Network for Automatic Image Matting [0.0]
本研究では,画像マッチングのためのエンドツーエンドソリューション,すなわち自然画像から前景オブジェクトを高精度に抽出する手法を提案する。本稿では,セマンティックセグメンテーションと深層画像マッチングプロセスをひとつのネットワークに同化して意味行列を生成する手法を提案する。また、高品質なアルファマットを用いたファッションeコマース型データセットを構築し、画像マッチングのトレーニングと評価を容易にする。
論文参考訳（メタデータ） (2020-03-07T17:25:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。