論文の概要: Learning Multiple Representations with Inconsistency-Guided Detail Regularization for Mask-Guided Matting
- arxiv url: http://arxiv.org/abs/2403.19213v1
- Date: Thu, 28 Mar 2024 08:21:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 17:03:08.533852
- Title: Learning Multiple Representations with Inconsistency-Guided Detail Regularization for Mask-Guided Matting
- Title(参考訳): マスクガイドマッティングにおける不整合誘導詳細正規化による複数表現の学習
- Authors: Weihao Jiang, Zhaozhi Xie, Yuxiang Lu, Longjie Qi, Jingyong Cai, Hiroyuki Uchiyama, Bin Chen, Yue Ding, Hongtao Lu,
- Abstract要約: マスク誘導マットネットワークは近年,実用化に大きな可能性を秘めている。
これらのアプローチは、間違ったリージョンで低レベルの詳細をオーバーフィットする傾向があります。
マスク誘導マットモデルのための新しい補助学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 20.55342666783899
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mask-guided matting networks have achieved significant improvements and have shown great potential in practical applications in recent years. However, simply learning matting representation from synthetic and lack-of-real-world-diversity matting data, these approaches tend to overfit low-level details in wrong regions, lack generalization to objects with complex structures and real-world scenes such as shadows, as well as suffer from interference of background lines or textures. To address these challenges, in this paper, we propose a novel auxiliary learning framework for mask-guided matting models, incorporating three auxiliary tasks: semantic segmentation, edge detection, and background line detection besides matting, to learn different and effective representations from different types of data and annotations. Our framework and model introduce the following key aspects: (1) to learn real-world adaptive semantic representation for objects with diverse and complex structures under real-world scenes, we introduce extra semantic segmentation and edge detection tasks on more diverse real-world data with segmentation annotations; (2) to avoid overfitting on low-level details, we propose a module to utilize the inconsistency between learned segmentation and matting representations to regularize detail refinement; (3) we propose a novel background line detection task into our auxiliary learning framework, to suppress interference of background lines or textures. In addition, we propose a high-quality matting benchmark, Plant-Mat, to evaluate matting methods on complex structures. Extensively quantitative and qualitative results show that our approach outperforms state-of-the-art mask-guided methods.
- Abstract(参考訳): マスク誘導マッティングネットワークは,近年,実用化に大きな可能性を秘めている。
しかし、これらの手法は、合成的および実世界の多様性の欠如からマット表現を学習するだけで、誤った領域における低レベルの詳細を過度に適合させ、複雑な構造を持つ物体や影のような現実世界のシーンへの一般化を欠き、背景線やテクスチャの干渉に悩まされる傾向にある。
これらの課題に対処するため,本稿では,意味的セグメンテーション,エッジ検出,背景線検出という3つの補助的タスクを組込み,異なるタイプのデータやアノテーションから異なる効果的な表現を学習する,マスク誘導マッチングモデルのための新しい補助的学習フレームワークを提案する。
筆者らのフレームワークとモデルは, 現実世界のシーン下で, 多様な複雑な構造を持つオブジェクトに対して, 現実の適応的意味表現を学習するために, セグメンテーションアノテーションを用いて, より多様な実世界のデータに対して, 付加的なセグメンテーションとエッジ検出タスクを導入する。
さらに, 複雑な構造上の整合性を評価するため, 高品質な整合性ベンチマークであるPlant-Matを提案する。
広範に定量的かつ定性的な結果は、我々のアプローチが最先端のマスク誘導法より優れていることを示している。
関連論文リスト
- Generalizable Entity Grounding via Assistance of Large Language Model [77.07759442298666]
本稿では,長いキャプションから密接な視覚的実体を抽出する手法を提案する。
本研究では,意味代名詞の抽出に大規模なマルチモーダルモデル,エンティティレベルのセグメンテーションを生成するクラス-aセグメンテーションモデル,および各セグメンテーション名詞と対応するセグメンテーションマスクを関連付けるマルチモーダル特徴融合モジュールを利用する。
論文 参考訳(メタデータ) (2024-02-04T16:06:05Z) - Self-supervised Learning of Dense Hierarchical Representations for
Medical Image Segmentation [2.5023672112974924]
本稿では,高密度下流タスクに適したボクセルワイド粗い表現を学習するための自己教師型フレームワークについて述べる。
我々は、複数のスケールから機能のコントリビューションのバランスをとるためのトレーニング戦略を考案し、学習された表現が粗い詳細ときめ細かい詳細の両方を捉えることを保証する。
論文 参考訳(メタデータ) (2024-01-12T09:47:17Z) - Masked Modeling for Self-supervised Representation Learning on Vision
and Beyond [69.64364187449773]
仮面モデリングは、トレーニング中に比例的にマスキングされる元のデータの一部を予測する、独特なアプローチとして現れてきた。
マスクモデリングにおけるテクニックの詳細については,多様なマスキング戦略,ターゲット回復,ネットワークアーキテクチャなどについて詳述する。
我々は、現在の手法の限界について議論し、マスクモデリング研究を進めるためのいくつかの道のりを指摘した。
論文 参考訳(メタデータ) (2023-12-31T12:03:21Z) - Unsupervised Semantic Segmentation Through Depth-Guided Feature Correlation and Sampling [14.88236554564287]
本研究では,シーンの構造に関する情報を学習プロセスに組み込むことにより,教師なし学習の進歩を構築する。
本研究では,(1)特徴マップと深度マップを空間的に相関させて深度-特徴相関を学習し,シーンの構造に関する知識を誘導する。
次に,シーンの深度情報に対する3次元サンプリング技術を利用して,より効果的に特徴を抽出するために,最遠点サンプリングを実装した。
論文 参考訳(メタデータ) (2023-09-21T11:47:01Z) - Towards Deeply Unified Depth-aware Panoptic Segmentation with
Bi-directional Guidance Learning [63.63516124646916]
深度認識型パノプティックセグメンテーションのためのフレームワークを提案する。
本稿では,クロスタスク機能学習を容易にする双方向指導学習手法を提案する。
本手法は,Cityscapes-DVPS と SemKITTI-DVPS の両データセットを用いた深度認識型パノプティックセグメンテーションのための新しい手法である。
論文 参考訳(メタデータ) (2023-07-27T11:28:33Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z) - Cross-view Graph Contrastive Representation Learning on Partially
Aligned Multi-view Data [52.491074276133325]
マルチビュー表現学習は、過去数十年間で急速に発展し、多くの分野に応用されてきた。
本稿では,多視点情報を統合してデータアライメントを行い,潜在表現を学習する,新しいクロスビューグラフコントラスト学習フレームワークを提案する。
複数の実データを用いて実験を行い,クラスタリングおよび分類作業における提案手法の有効性を示した。
論文 参考訳(メタデータ) (2022-11-08T09:19:32Z) - PatchMVSNet: Patch-wise Unsupervised Multi-View Stereo for
Weakly-Textured Surface Reconstruction [2.9896482273918434]
本稿では,多視点画像の制約を活かしたロバストな損失関数を提案し,あいまいさを緩和する。
我々の戦略は任意の深さ推定フレームワークで実装することができ、任意の大規模MVSデータセットでトレーニングすることができる。
提案手法は,DTU,タンク・アンド・テンプル,ETH3Dなどの一般的なベンチマーク上での最先端手法の性能に達する。
論文 参考訳(メタデータ) (2022-03-04T07:05:23Z) - Three Ways to Improve Semantic Segmentation with Self-Supervised Depth
Estimation [90.87105131054419]
ラベルなし画像列からの自己教師付き単眼深度推定により強化された半教師付きセマンティックセマンティックセマンティックセマンティクスのフレームワークを提案する。
提案されたモデルをCityscapesデータセット上で検証する。
論文 参考訳(メタデータ) (2020-12-19T21:18:03Z) - MARNet: Multi-Abstraction Refinement Network for 3D Point Cloud Analysis [9.34612743192798]
既存のディープラーニング手法では、特徴間の相互作用が限られているため、情報の粒度が異なるため、利用できない。
マルチレベルの特徴間の効果的な情報交換を実現するMARNet(Multi-Abstraction Refinement Network)を提案する。
形状分類と粒度の粗いセマンティックセマンティックセグメンテーションの2つの課題に対して,MARNetの有効性を実証的に示す。
論文 参考訳(メタデータ) (2020-11-02T12:07:35Z) - Focus on Semantic Consistency for Cross-domain Crowd Understanding [34.560447389853614]
いくつかのドメイン適応アルゴリズムは、合成データでモデルをトレーニングすることでそれを解放しようとする。
その結果,背景領域における推定誤差が既存手法の性能を阻害していることが判明した。
本稿では,ドメイン適応手法を提案する。
論文 参考訳(メタデータ) (2020-02-20T08:51:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。