論文の概要: ZIM: Zero-Shot Image Matting for Anything
- arxiv url: http://arxiv.org/abs/2411.00626v1
- Date: Fri, 01 Nov 2024 14:34:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:40:14.218524
- Title: ZIM: Zero-Shot Image Matting for Anything
- Title(参考訳): ZIM:あらゆるもののためのゼロショット画像マッチング
- Authors: Beomyoung Kim, Chanyong Shin, Joonhyun Jeong, Hyungsik Jung, Se-Yun Lee, Sewhan Chun, Dong-Hyun Hwang, Joonsang Yu,
- Abstract要約: 我々はZIMと呼ばれる新しいゼロショット画像マッチングモデルを開発し、2つの重要な貢献を行った。
まず,セグメンテーションラベルを詳細なマットラベルに変換するラベル変換器を開発し,コストのかかる手動アノテーションを使わずに新しいSA1B-Matteデータセットを構築した。
第2に,マスク表現を向上する階層型画素デコーダを備えたゼロショットマッチングモデルを設計する。
- 参考スコア(独自算出の注目度): 9.278124835968033
- License:
- Abstract: The recent segmentation foundation model, Segment Anything Model (SAM), exhibits strong zero-shot segmentation capabilities, but it falls short in generating fine-grained precise masks. To address this limitation, we propose a novel zero-shot image matting model, called ZIM, with two key contributions: First, we develop a label converter that transforms segmentation labels into detailed matte labels, constructing the new SA1B-Matte dataset without costly manual annotations. Training SAM with this dataset enables it to generate precise matte masks while maintaining its zero-shot capability. Second, we design the zero-shot matting model equipped with a hierarchical pixel decoder to enhance mask representation, along with a prompt-aware masked attention mechanism to improve performance by enabling the model to focus on regions specified by visual prompts. We evaluate ZIM using the newly introduced MicroMat-3K test set, which contains high-quality micro-level matte labels. Experimental results show that ZIM outperforms existing methods in fine-grained mask generation and zero-shot generalization. Furthermore, we demonstrate the versatility of ZIM in various downstream tasks requiring precise masks, such as image inpainting and 3D NeRF. Our contributions provide a robust foundation for advancing zero-shot matting and its downstream applications across a wide range of computer vision tasks. The code is available at \url{https://github.com/naver-ai/ZIM}.
- Abstract(参考訳): 最近のセグメンテーション基礎モデルであるSAM(Segment Anything Model)は、強力なゼロショットセグメンテーション能力を示すが、きめ細かい精密なマスクを生成するには不十分である。
この制限に対処するために、ZIMと呼ばれる新しいゼロショット画像マッチングモデルを提案する。まず、セグメンテーションラベルを詳細なマットラベルに変換するラベルコンバータを開発し、コストのかかる手動アノテーションを使わずに新しいSA1B-Matteデータセットを構築する。
このデータセットでSAMをトレーニングすることで、ゼロショット能力を維持しながら、正確なマットマスクを生成することができる。
第2に,階層型画素デコーダを備えたゼロショットマッチングモデルを設計し,視覚的プロンプトによって特定された領域に焦点を絞ることで,マスキングの強化と,プロンプト対応マスキングアテンション機構の強化を実現した。
高品質なマイクロマットラベルを含む新しいマイクロMat-3Kテストセットを用いて,ZIMを評価した。
実験の結果,ZIMはマスク生成やゼロショット一般化において既存の手法よりも優れていた。
さらに,画像の塗布や3D NeRFなどの正確なマスクを必要とする様々な下流タスクにおいて,ZIMの汎用性を示す。
我々のコントリビューションは、広範囲のコンピュータビジョンタスクでゼロショット・マッティングとその下流アプリケーションを進めるための堅牢な基盤を提供する。
コードは \url{https://github.com/naver-ai/ZIM} で公開されている。
関連論文リスト
- Towards Real Zero-Shot Camouflaged Object Segmentation without Camouflaged Annotations [29.226550015973967]
我々は、ロバストなゼロショットCamouflaged Object (COS)フレームワークを導入する。
このフレームワークは、効率的なゼロショット転送のために、サルエントオブジェクトセグメンテーション(SOS)から派生した広い意味的特徴空間を使用する。
ゼロショットCOSでは,CAMOでは72.9%,COD10Kでは71.7%のスコアが得られた。
論文 参考訳(メタデータ) (2024-10-22T12:33:38Z) - Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。
最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。
本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:02:28Z) - Towards Natural Image Matting in the Wild via Real-Scenario Prior [69.96414467916863]
我々は,COCOデータセット,すなわちCOCO-Mattingに基づく新しいマッチングデータセットを提案する。
構築されたCOCO-Mattingは、複雑な自然シナリオにおける38,251人のインスタンスレベルのアルファマットの広範なコレクションを含む。
ネットワークアーキテクチャにおいて、提案する特徴整合変換器は、きめ細かいエッジと透過性を抽出することを学ぶ。
提案したマットアライメントデコーダは、マット固有のオブジェクトを分割し、粗いマスクを高精度なマットに変換することを目的としている。
論文 参考訳(メタデータ) (2024-10-09T06:43:19Z) - Triple Point Masking [49.39218611030084]
既存の3Dマスク学習手法は、限られたデータの下でパフォーマンスボトルネックに遭遇する。
我々は、マスク付きオートエンコーダの事前学習のためのスケーラブルなフレームワークとして、TPMと呼ばれるトリプルポイントマスキング方式を導入する。
大規模な実験により,提案したTPMを組み込んだ4つのベースラインが,下流タスクの総合的な性能向上を実現することが示された。
論文 参考訳(メタデータ) (2024-09-26T05:33:30Z) - Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - MaskSAM: Towards Auto-prompt SAM with Mask Classification for Medical Image Segmentation [18.125292369318576]
MaskSAMは、医療画像セグメンテーションのためのマスク分類プロンプトフリー適応フレームワークである。
本手法は,AMOS2022,90.52%のDice上での最先端性能を実現し,nnUNetに比べて2.7%向上した。
論文 参考訳(メタデータ) (2024-03-21T03:28:24Z) - Domain-Guided Masked Autoencoders for Unique Player Identification [62.87054782745536]
マスク付きオートエンコーダ (MAE) は, 従来の特徴抽出器よりも優れた代替手段として出現している。
人間の視覚に触発され、我々はd-MAEと呼ばれるMAEのための新しいドメイン誘導マスキングポリシーを考案した。
3つの大規模スポーツデータセットの実験を行った。
論文 参考訳(メタデータ) (2024-03-17T20:14:57Z) - Pre-training with Random Orthogonal Projection Image Modeling [32.667183132025094]
Masked Image Modeling (MIM)は、ラベルを使わずに視覚前訓練のための強力な自己教師型戦略である。
ランダム直交投影画像モデリング(ROPIM)に基づく画像モデリングフレームワークを提案する。
ROPIMはノイズ分散が保証される場合の空間的トークン情報を低減し、局所的に変化するマスキング度の下で空間的画像領域全体をマスキングすると見なすことができる。
論文 参考訳(メタデータ) (2023-10-28T15:42:07Z) - Matting Anything [30.45052699696115]
Matting Anything Model (MAM) は、画像中の任意のインスタンスのアルファマットを推定するための効率的なフレームワークである。
我々は,様々な画像マッチングベンチマークにおいて,MAMの性能を評価する。
論文 参考訳(メタデータ) (2023-06-08T17:51:58Z) - One-Shot Synthesis of Images and Segmentation Masks [28.119303696418882]
画像合成とGAN(Generative Adversarial Network)とのセグメンテーションマスクの併用により,画像データをピクセル単位のアノテーションで収集する作業の削減が期待されている。
高忠実な画像マスク合成を学習するために、既存のGANアプローチは、大量の画像データを必要とする事前学習フェーズを必要とする。
我々は,1ショット方式で生成した画像に正確に整合したセグメンテーションマスクの合成を可能にするOSMISモデルを提案する。
論文 参考訳(メタデータ) (2022-09-15T18:00:55Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。