論文の概要: Towards Natural Image Matting in the Wild via Real-Scenario Prior
- arxiv url: http://arxiv.org/abs/2410.06593v1
- Date: Wed, 9 Oct 2024 06:43:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 04:49:21.916016
- Title: Towards Natural Image Matting in the Wild via Real-Scenario Prior
- Title(参考訳): リアル・セサリオによる野生の自然画像のマッチングに向けて
- Authors: Ruihao Xia, Yu Liang, Peng-Tao Jiang, Hao Zhang, Qianru Sun, Yang Tang, Bo Li, Pan Zhou,
- Abstract要約: 我々は,COCOデータセット,すなわちCOCO-Mattingに基づく新しいマッチングデータセットを提案する。
構築されたCOCO-Mattingは、複雑な自然シナリオにおける38,251人のインスタンスレベルのアルファマットの広範なコレクションを含む。
ネットワークアーキテクチャにおいて、提案する特徴整合変換器は、きめ細かいエッジと透過性を抽出することを学ぶ。
提案したマットアライメントデコーダは、マット固有のオブジェクトを分割し、粗いマスクを高精度なマットに変換することを目的としている。
- 参考スコア(独自算出の注目度): 69.96414467916863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent approaches attempt to adapt powerful interactive segmentation models, such as SAM, to interactive matting and fine-tune the models based on synthetic matting datasets. However, models trained on synthetic data fail to generalize to complex and occlusion scenes. We address this challenge by proposing a new matting dataset based on the COCO dataset, namely COCO-Matting. Specifically, the construction of our COCO-Matting includes accessory fusion and mask-to-matte, which selects real-world complex images from COCO and converts semantic segmentation masks to matting labels. The built COCO-Matting comprises an extensive collection of 38,251 human instance-level alpha mattes in complex natural scenarios. Furthermore, existing SAM-based matting methods extract intermediate features and masks from a frozen SAM and only train a lightweight matting decoder by end-to-end matting losses, which do not fully exploit the potential of the pre-trained SAM. Thus, we propose SEMat which revamps the network architecture and training objectives. For network architecture, the proposed feature-aligned transformer learns to extract fine-grained edge and transparency features. The proposed matte-aligned decoder aims to segment matting-specific objects and convert coarse masks into high-precision mattes. For training objectives, the proposed regularization and trimap loss aim to retain the prior from the pre-trained model and push the matting logits extracted from the mask decoder to contain trimap-based semantic information. Extensive experiments across seven diverse datasets demonstrate the superior performance of our method, proving its efficacy in interactive natural image matting. We open-source our code, models, and dataset at https://github.com/XiaRho/SEMat.
- Abstract(参考訳): 近年のアプローチでは、SAMのような強力なインタラクティブセグメンテーションモデルをインタラクティブなマッティングに適用し、合成マッティングデータセットに基づいてモデルを微調整する試みが行われている。
しかし、合成データに基づいて訓練されたモデルは、複雑で閉塞的なシーンに一般化することができない。
我々は、COCOデータセット、すなわちCOCO-Mattingに基づいた新しいマッチングデータセットを提案することで、この問題に対処する。
具体的には,COCOから実世界の複雑な画像を選択し,セマンティックセグメンテーションマスクをマッティングラベルに変換する。
構築されたCOCO-Mattingは、複雑な自然シナリオにおける38,251人のインスタンスレベルのアルファマットの広範なコレクションを含む。
さらに、既存のSAMベースのマット方式では、凍結したSAMから中間的な特徴やマスクを抽出し、エンドツーエンドのマット化損失によって軽量なマット化デコーダを訓練するのみであり、事前訓練されたSAMの可能性を十分に活用していない。
そこで本研究では,ネットワークアーキテクチャを改良したSEMatを提案する。
ネットワークアーキテクチャにおいて、提案する特徴整合変換器は、きめ細かいエッジと透過性を抽出することを学ぶ。
提案したマットアライメントデコーダは、マット固有のオブジェクトを分割し、粗いマスクを高精度なマットに変換することを目的としている。
トレーニング目的として、提案した正規化とトリマップロスは、事前訓練されたモデルからの事前の保持を目標とし、マスクデコーダから抽出したマットログをトリマップベースのセマンティック情報を含むようにプッシュする。
7つの多様なデータセットにわたる大規模な実験は,本手法の優れた性能を示し,インタラクティブな自然画像マッチングにおける有効性を証明した。
コード、モデル、データセットはhttps://github.com/XiaRho/SEMat.comでオープンソース化しています。
関連論文リスト
- Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - MaeFuse: Transferring Omni Features with Pretrained Masked Autoencoders for Infrared and Visible Image Fusion via Guided Training [57.18758272617101]
MaeFuseは、赤外線および可視画像融合(IVIF)用に設計された新しいオートエンコーダモデルである
提案モデルでは,MAE(Masked Autoencoders)の事前訓練エンコーダを用いて,低レベル再構成と高レベル視覚タスクのためのオムニ特徴抽出機能を備えている。
MaeFuseは、融合技術という領域で新しい視点を導入するだけでなく、様々な公開データセットで顕著なパフォーマンスで際立っている。
論文 参考訳(メタデータ) (2024-04-17T02:47:39Z) - Dual-Context Aggregation for Universal Image Matting [16.59886660634162]
我々は、Dual-Context Aggregation Matting (DCAM)という、シンプルで普遍的なマッチングフレームワークを提案する。
特に、DCAMは、まずセマンティックバックボーンネットワークを採用し、入力画像とガイダンスから低レベル特徴とコンテキスト特徴を抽出する。
グローバルな輪郭セグメンテーションと地域境界の洗練を両立させることにより、DCAMは様々な種類のガイダンスやオブジェクトに対して堅牢性を示す。
論文 参考訳(メタデータ) (2024-02-28T06:56:24Z) - GD-MAE: Generative Decoder for MAE Pre-training on LiDAR Point Clouds [72.60362979456035]
Masked Autoencoders (MAE)は、大規模な3Dポイントクラウドでの探索が難しい。
我々は,周囲のコンテキストを自動的にマージするためのtextbfGenerative textbfDecoder for MAE (GD-MAE)を提案する。
提案手法の有効性を, KITTI と ONCE の2つの大規模ベンチマークで実証した。
論文 参考訳(メタデータ) (2022-12-06T14:32:55Z) - L-MAE: Masked Autoencoders are Semantic Segmentation Datasets Augmenter [8.183553437724603]
本稿では,単純かつ効果的なラベルレベルの補完手法である textbf Mask AutoEncoder (L-MAE) を提案する。
提案されたモデルは、下流タスクにMask Auto-Encoderを適用した最初のモデルである。
実験では、L-MAE強化データセットでトレーニングされたモデルの13.5%のパフォーマンス向上が示されている。
論文 参考訳(メタデータ) (2022-11-21T08:15:18Z) - Exploiting Shape Cues for Weakly Supervised Semantic Segmentation [15.791415215216029]
弱教師付きセマンティックセマンティックセグメンテーション (WSSS) は、画像レベルのラベルのみをトレーニング用として、画素単位のクラス予測を生成することを目的としている。
畳み込みニューラルネットワーク(CNN)のテクスチャバイアス特性を補うために形状情報を活用することを提案する。
我々は、クラスと色親和性の両方を考慮した新しい改良手法により、オンライン方式で予測をさらに洗練する。
論文 参考訳(メタデータ) (2022-08-08T17:25:31Z) - MST: Masked Self-Supervised Transformer for Visual Representation [52.099722121603506]
Transformerは自然言語処理(NLP)における自己教師型事前学習に広く利用されている。
我々は、画像の局所的コンテキストを明示的にキャプチャできる、MSTと呼ばれる新しいMasked Self-supervised Transformerアプローチを提案する。
MSTは、線形評価による300エポック事前トレーニングのみを使用して、DeiT-Sで76.9%のTop-1精度を達成する。
論文 参考訳(メタデータ) (2021-06-10T11:05:18Z) - Example-Guided Image Synthesis across Arbitrary Scenes using Masked
Spatial-Channel Attention and Self-Supervision [83.33283892171562]
実例誘導画像合成は,最近セマンティックラベルマップと模範画像から画像を合成するために試みられている。
本稿では,ラベルマップと意味的に異なる任意のシーンイメージを例に,より困難で汎用的な課題に取り組む。
本稿では,グローバル・ローカルな特徴アライメントと合成のためのエンドツーエンドネットワークを提案する。
論文 参考訳(メタデータ) (2020-04-18T18:17:40Z) - AlphaNet: An Attention Guided Deep Network for Automatic Image Matting [0.0]
本研究では,画像マッチングのためのエンドツーエンドソリューション,すなわち自然画像から前景オブジェクトを高精度に抽出する手法を提案する。
本稿では,セマンティックセグメンテーションと深層画像マッチングプロセスをひとつのネットワークに同化して意味行列を生成する手法を提案する。
また、高品質なアルファマットを用いたファッションeコマース型データセットを構築し、画像マッチングのトレーニングと評価を容易にする。
論文 参考訳(メタデータ) (2020-03-07T17:25:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。