Fugu-MT 論文翻訳(概要): Disentangled Pre-training for Image Matting

論文の概要: Disentangled Pre-training for Image Matting

arxiv url: http://arxiv.org/abs/2304.00784v2
Date: Sun, 10 Dec 2023 12:13:56 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-13 02:56:09.206327
Title: Disentangled Pre-training for Image Matting
Title（参考訳）: 画像マッティングのための異方性事前学習
Authors: Yanda Li, Zilong Huang, Gang Yu, Ling Chen, Yunchao Wei, Jianbo Jiao
Abstract要約: 画像マッチングは、深層モデルのトレーニングをサポートするために高品質なピクセルレベルの人間のアノテーションを必要とする。本研究では、無限個のデータを活用する自己教師付き事前学習手法を提案し、マッチング性能を向上する。
参考スコア（独自算出の注目度）: 74.10407744483526
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Image matting requires high-quality pixel-level human annotations to support the training of a deep model in recent literature. Whereas such annotation is costly and hard to scale, significantly holding back the development of the research. In this work, we make the first attempt towards addressing this problem, by proposing a self-supervised pre-training approach that can leverage infinite numbers of data to boost the matting performance. The pre-training task is designed in a similar manner as image matting, where random trimap and alpha matte are generated to achieve an image disentanglement objective. The pre-trained model is then used as an initialisation of the downstream matting task for fine-tuning. Extensive experimental evaluations show that the proposed approach outperforms both the state-of-the-art matting methods and other alternative self-supervised initialisation approaches by a large margin. We also show the robustness of the proposed approach over different backbone architectures. Our project page is available at https://crystraldo.github.io/dpt_mat/.
Abstract（参考訳）: 画像マッチングは、近年の文献における深層モデルのトレーニングを支援するために、高品質なピクセルレベルの人間のアノテーションを必要とする。このようなアノテーションは費用がかかり、スケールが難しいが、研究の発展を著しく妨げている。本研究では,無限個のデータを利用してマットング性能を向上させる自己教師付き事前学習手法を提案することで,この問題への最初の試みを行う。プリトレーニングタスクは、ランダムなトリマップとアルファマットを生成して画像不等角化目標を達成するイメージマットングと似た方法で設計される。次に、事前訓練されたモデルは、微調整のための下流マットングタスクの初期化として使用される。広範な実験評価により,提案手法は最先端のマットング法と他の自己教師付き初期化手法を大差で上回ることがわかった。また,異なるバックボーンアーキテクチャ上で提案手法の堅牢性を示す。プロジェクトページはhttps://crystraldo.github.io/dpt_mat/で閲覧できます。

関連論文リスト

Visual Autoregressive Modelling for Monocular Depth Estimation [69.01449528371916]
本稿では,視覚的自己回帰(VAR)に基づく単眼深度推定手法を提案する。提案手法は,大規模テキスト・画像VARモデルに適応し,スケールワイド・コンディショナル・アップサンプリング機構を導入する。本研究では,屋内ベンチマークにおける制約付きトレーニング条件下での最先端性能と,屋外データセットに適用した場合の強い性能について報告する。
論文参考訳（メタデータ） (2025-12-27T17:08:03Z)
Directional Gradient Projection for Robust Fine-Tuning of Foundation Models [25.04763038570959]
ディディショナル・グラディエント・プロジェクション(DiGraP)は、グラデーションからブリッジの正規化や多目的最適化に至るまでの方向性情報を階層的に学習可能な手法である。まず,画像分類による視覚質問回答 (VQA) ベンチマークの分析により,一様・多モードのギャップを埋める。実験結果から,DiGraPは画像分類やVQAタスクにおいて,識別的,生成的バックボーンで既存のベースラインを一貫して上回ることがわかった。
論文参考訳（メタデータ） (2025-02-21T19:31:55Z)
PrefPaint: Aligning Image Inpainting Diffusion Model with Human Preference [62.72779589895124]
画像インペイントのための拡散モデルと人間の審美基準との整合性を、強化学習フレームワークを用いて初めて試みる。我々は、人間の好みを付加した約51,000枚の画像からなるデータセットで報酬モデルを訓練する。画像拡張や3次元再構成などの下流タスクの塗装比較実験により, 提案手法の有効性が示された。
論文参考訳（メタデータ） (2024-10-29T11:49:39Z)
GS-Pose: Category-Level Object Pose Estimation via Geometric and Semantic Correspondence [5.500735640045456]
カテゴリーレベルのポーズ推定は、コンピュータビジョンやロボット工学における多くの潜在的な応用において難しい課題である。本稿では,事前学習した基礎モデルから得られる幾何学的特徴と意味的特徴の両方を活用することを提案する。これは、セマンティックな特徴がオブジェクトのテクスチャや外観に対して堅牢であるため、以前のメソッドよりもトレーニングするデータを大幅に少なくする。
論文参考訳（メタデータ） (2023-11-23T02:35:38Z)
UMat: Uncertainty-Aware Single Image High Resolution Material Capture [2.416160525187799]
本研究では, 物体の単一拡散像から正規性, 特異性, 粗さを復元する学習手法を提案する。本手法は材料デジタル化における不確実性をモデル化する問題に最初に対処する手法である。
論文参考訳（メタデータ） (2023-05-25T17:59:04Z)
Thread Counting in Plain Weave for Old Paintings Using Semi-Supervised Regression Deep Learning Models [0.0]
筆者らは, 深層学習に基づく回帰手法を開発し, 平織りキャンバス解析のためのスレッド密度推定を行う。提案アルゴリズムの性能は,Ribera,Vel'azquez,Poussinの3つの手法を用いて解析し,従来の手法と比較した。
論文参考訳（メタデータ） (2023-03-28T14:15:13Z)
Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文参考訳（メタデータ） (2022-09-30T02:25:12Z)
Semantic keypoint-based pose estimation from single RGB frames [64.80395521735463]
一つのRGB画像からオブジェクトの連続6-DoFポーズを推定する手法を提案する。このアプローチは、畳み込みネットワーク(convnet)によって予測されるセマンティックキーポイントと、変形可能な形状モデルを組み合わせる。提案手法は,インスタンスベースのシナリオとクラスベースのシナリオの両方に対して,6-DoFオブジェクトのポーズを正確に復元できることを示す。
論文参考訳（メタデータ） (2022-04-12T15:03:51Z)
An Adaptive Framework for Learning Unsupervised Depth Completion [59.17364202590475]
カラー画像から高密度深度マップとそれに伴うスパース深度測定を推定する手法を提案する。正規化とコビジュアライゼーションは、モデルの適合度とデータによって関連付けられており、単一のフレームワークに統合可能であることを示す。
論文参考訳（メタデータ） (2021-06-06T02:27:55Z)
Combining Semantic Guidance and Deep Reinforcement Learning For Generating Human Level Paintings [22.889059874754242]
脳卒中に基づく非フォトリアリスティック画像の生成は、コンピュータビジョンコミュニティにおいて重要な問題である。従来の手法は、前景オブジェクトの位置、規模、正当性にほとんど変化のないデータセットに限られていた。本研究では,1)前景と背景の筆画の区別を学習するための2段階の塗装手順を備えたセマンティック・ガイダンス・パイプラインを提案する。
論文参考訳（メタデータ） (2020-11-25T09:00:04Z)
Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文参考訳（メタデータ） (2020-04-14T16:29:42Z)
AlphaNet: An Attention Guided Deep Network for Automatic Image Matting [0.0]
本研究では,画像マッチングのためのエンドツーエンドソリューション,すなわち自然画像から前景オブジェクトを高精度に抽出する手法を提案する。本稿では,セマンティックセグメンテーションと深層画像マッチングプロセスをひとつのネットワークに同化して意味行列を生成する手法を提案する。また、高品質なアルファマットを用いたファッションeコマース型データセットを構築し、画像マッチングのトレーニングと評価を容易にする。
論文参考訳（メタデータ） (2020-03-07T17:25:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。