論文の概要: Disentangled Pre-training for Image Matting
- arxiv url: http://arxiv.org/abs/2304.00784v2
- Date: Sun, 10 Dec 2023 12:13:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 02:56:09.206327
- Title: Disentangled Pre-training for Image Matting
- Title(参考訳): 画像マッティングのための異方性事前学習
- Authors: Yanda Li, Zilong Huang, Gang Yu, Ling Chen, Yunchao Wei, Jianbo Jiao
- Abstract要約: 画像マッチングは、深層モデルのトレーニングをサポートするために高品質なピクセルレベルの人間のアノテーションを必要とする。
本研究では、無限個のデータを活用する自己教師付き事前学習手法を提案し、マッチング性能を向上する。
- 参考スコア(独自算出の注目度): 74.10407744483526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image matting requires high-quality pixel-level human annotations to support
the training of a deep model in recent literature. Whereas such annotation is
costly and hard to scale, significantly holding back the development of the
research. In this work, we make the first attempt towards addressing this
problem, by proposing a self-supervised pre-training approach that can leverage
infinite numbers of data to boost the matting performance. The pre-training
task is designed in a similar manner as image matting, where random trimap and
alpha matte are generated to achieve an image disentanglement objective. The
pre-trained model is then used as an initialisation of the downstream matting
task for fine-tuning. Extensive experimental evaluations show that the proposed
approach outperforms both the state-of-the-art matting methods and other
alternative self-supervised initialisation approaches by a large margin. We
also show the robustness of the proposed approach over different backbone
architectures. Our project page is available at
https://crystraldo.github.io/dpt_mat/.
- Abstract(参考訳): 画像マッチングは、近年の文献における深層モデルのトレーニングを支援するために、高品質なピクセルレベルの人間のアノテーションを必要とする。
このようなアノテーションは費用がかかり、スケールが難しいが、研究の発展を著しく妨げている。
本研究では,無限個のデータを利用してマットング性能を向上させる自己教師付き事前学習手法を提案することで,この問題への最初の試みを行う。
プリトレーニングタスクは、ランダムなトリマップとアルファマットを生成して画像不等角化目標を達成するイメージマットングと似た方法で設計される。
次に、事前訓練されたモデルは、微調整のための下流マットングタスクの初期化として使用される。
広範な実験評価により,提案手法は最先端のマットング法と他の自己教師付き初期化手法を大差で上回ることがわかった。
また,異なるバックボーンアーキテクチャ上で提案手法の堅牢性を示す。
プロジェクトページはhttps://crystraldo.github.io/dpt_mat/で閲覧できます。
関連論文リスト
- PrefPaint: Aligning Image Inpainting Diffusion Model with Human Preference [62.72779589895124]
画像インペイントのための拡散モデルと人間の審美基準との整合性を、強化学習フレームワークを用いて初めて試みる。
我々は、人間の好みを付加した約51,000枚の画像からなるデータセットで報酬モデルを訓練する。
画像拡張や3次元再構成などの下流タスクの塗装比較実験により, 提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-10-29T11:49:39Z) - GS-Pose: Category-Level Object Pose Estimation via Geometric and
Semantic Correspondence [5.500735640045456]
カテゴリーレベルのポーズ推定は、コンピュータビジョンやロボット工学における多くの潜在的な応用において難しい課題である。
本稿では,事前学習した基礎モデルから得られる幾何学的特徴と意味的特徴の両方を活用することを提案する。
これは、セマンティックな特徴がオブジェクトのテクスチャや外観に対して堅牢であるため、以前のメソッドよりもトレーニングするデータを大幅に少なくする。
論文 参考訳(メタデータ) (2023-11-23T02:35:38Z) - UMat: Uncertainty-Aware Single Image High Resolution Material Capture [2.416160525187799]
本研究では, 物体の単一拡散像から正規性, 特異性, 粗さを復元する学習手法を提案する。
本手法は材料デジタル化における不確実性をモデル化する問題に最初に対処する手法である。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z) - Thread Counting in Plain Weave for Old Paintings Using Semi-Supervised
Regression Deep Learning Models [0.0]
筆者らは, 深層学習に基づく回帰手法を開発し, 平織りキャンバス解析のためのスレッド密度推定を行う。
提案アルゴリズムの性能は,Ribera,Vel'azquez,Poussinの3つの手法を用いて解析し,従来の手法と比較した。
論文 参考訳(メタデータ) (2023-03-28T14:15:13Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - Semantic keypoint-based pose estimation from single RGB frames [64.80395521735463]
一つのRGB画像からオブジェクトの連続6-DoFポーズを推定する手法を提案する。
このアプローチは、畳み込みネットワーク(convnet)によって予測されるセマンティックキーポイントと、変形可能な形状モデルを組み合わせる。
提案手法は,インスタンスベースのシナリオとクラスベースのシナリオの両方に対して,6-DoFオブジェクトのポーズを正確に復元できることを示す。
論文 参考訳(メタデータ) (2022-04-12T15:03:51Z) - An Adaptive Framework for Learning Unsupervised Depth Completion [59.17364202590475]
カラー画像から高密度深度マップとそれに伴うスパース深度測定を推定する手法を提案する。
正規化とコビジュアライゼーションは、モデルの適合度とデータによって関連付けられており、単一のフレームワークに統合可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T02:27:55Z) - Combining Semantic Guidance and Deep Reinforcement Learning For
Generating Human Level Paintings [22.889059874754242]
脳卒中に基づく非フォトリアリスティック画像の生成は、コンピュータビジョンコミュニティにおいて重要な問題である。
従来の手法は、前景オブジェクトの位置、規模、正当性にほとんど変化のないデータセットに限られていた。
本研究では,1)前景と背景の筆画の区別を学習するための2段階の塗装手順を備えたセマンティック・ガイダンス・パイプラインを提案する。
論文 参考訳(メタデータ) (2020-11-25T09:00:04Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z) - AlphaNet: An Attention Guided Deep Network for Automatic Image Matting [0.0]
本研究では,画像マッチングのためのエンドツーエンドソリューション,すなわち自然画像から前景オブジェクトを高精度に抽出する手法を提案する。
本稿では,セマンティックセグメンテーションと深層画像マッチングプロセスをひとつのネットワークに同化して意味行列を生成する手法を提案する。
また、高品質なアルファマットを用いたファッションeコマース型データセットを構築し、画像マッチングのトレーニングと評価を容易にする。
論文 参考訳(メタデータ) (2020-03-07T17:25:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。