論文の概要: Enhancing Image Matting in Real-World Scenes with Mask-Guided Iterative Refinement
- arxiv url: http://arxiv.org/abs/2502.17093v1
- Date: Mon, 24 Feb 2025 12:16:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:53:56.530490
- Title: Enhancing Image Matting in Real-World Scenes with Mask-Guided Iterative Refinement
- Title(参考訳): Mask-Guided Iterative Refinementを用いた実世界シーンにおける画像マッチングの強化
- Authors: Rui Liu,
- Abstract要約: Mask2Alphaは、画像マッチングにおけるセマンティック理解、インスタンス認識、詳細回復を強化するために設計された反復的な改善フレームワークである。
本フレームワークでは,自己教師型視覚変換機能をセマンティックプリエントとして活用し,複雑なシナリオにおけるコンテキスト理解を強化する。
Mask2Alphaは、常に最先端の結果を達成し、正確かつ効率的な画像マッチングにおけるその有効性を示している。
- 参考スコア(独自算出の注目度): 4.006320049969407
- License:
- Abstract: Real-world image matting is essential for applications in content creation and augmented reality. However, it remains challenging due to the complex nature of scenes and the scarcity of high-quality datasets. To address these limitations, we introduce Mask2Alpha, an iterative refinement framework designed to enhance semantic comprehension, instance awareness, and fine-detail recovery in image matting. Our framework leverages self-supervised Vision Transformer features as semantic priors, strengthening contextual understanding in complex scenarios. To further improve instance differentiation, we implement a mask-guided feature selection module, enabling precise targeting of objects in multi-instance settings. Additionally, a sparse convolution-based optimization scheme allows Mask2Alpha to recover high-resolution details through progressive refinement,from low-resolution semantic passes to high-resolution sparse reconstructions. Benchmarking across various real-world datasets, Mask2Alpha consistently achieves state-of-the-art results, showcasing its effectiveness in accurate and efficient image matting.
- Abstract(参考訳): 実世界の画像マッチングは、コンテンツ作成や拡張現実の応用に不可欠である。
しかし、シーンの複雑な性質と高品質なデータセットの不足のため、依然として挑戦的だ。
これらの制約に対処するため、画像マッチングにおける意味理解、インスタンス認識、細部回復の強化を目的とした反復的改善フレームワークであるMask2Alphaを紹介した。
本フレームワークでは,自己教師型視覚変換機能をセマンティックプリエントとして活用し,複雑なシナリオにおけるコンテキスト理解を強化する。
複数インスタンス設定におけるオブジェクトの正確なターゲティングを可能にするマスク誘導機能選択モジュールを実装した。
さらに、スパース畳み込みに基づく最適化手法により、Mask2Alphaは、低解像度のセマンティックパスから高解像度のスパース再構成に至るまで、プログレッシブリファインメントを通じて高解像度の詳細を復元することができる。
さまざまな実世界のデータセットをベンチマークして、Mask2Alphaは一貫して最先端の結果を達成し、正確で効率的な画像マッチングにおけるその有効性を示している。
関連論文リスト
- Towards Fine-grained Interactive Segmentation in Images and Videos [21.22536962888316]
SAM2のバックボーン上に構築されたSAM2Refinerフレームワークを提案する。
このアーキテクチャによりSAM2は、画像とビデオの両方のきめ細かいセグメンテーションマスクを生成することができる。
さらに,マルチスケールのカスケード構造を用いてマスク特徴とエンコーダの階層的表現を融合させることによりマスクリファインメントモジュールを考案した。
論文 参考訳(メタデータ) (2025-02-12T06:38:18Z) - Directing Mamba to Complex Textures: An Efficient Texture-Aware State Space Model for Image Restoration [75.51789992466183]
TAMAMbaIRは画像テクスチャの達成と性能と効率のトレードオフを同時に知覚する。
画像超解像, デラリニング, 低照度画像強調のためのベンチマーク実験により, TAMAMbaIRは高い効率で最先端の性能を達成できることを示した。
論文 参考訳(メタデータ) (2025-01-27T23:53:49Z) - MaskRIS: Semantic Distortion-aware Data Augmentation for Referring Image Segmentation [38.3201448852059]
Referring Image Code (RIS)は、画像内のオブジェクトの識別とセグメンテーションを含む高度な視覚認識タスクである。
我々はMasked Referring Image Code (MaskRIS)と呼ばれる新しいトレーニングフレームワークを提案する。
MaskRISは画像とテキストのマスキングの両方を使用し、次にContextual Learningを使用してマスキング戦略の利点を完全に活用する。
論文 参考訳(メタデータ) (2024-11-28T11:27:56Z) - UGMAE: A Unified Framework for Graph Masked Autoencoders [67.75493040186859]
グラフマスク付きオートエンコーダのための統一フレームワークであるUGMAEを提案する。
まず,ノードの特異性を考慮した適応型特徴マスク生成器を開発した。
次に,階層型構造再構成と特徴再構成を併用し,総合的なグラフ情報を取得する。
論文 参考訳(メタデータ) (2024-02-12T19:39:26Z) - PRISM: Progressive Restoration for Scene Graph-based Image Manipulation [47.77003316561398]
PRISMは、シーン内の操作された領域の精度と品質を改善するために、新しいマルチヘッド画像操作手法である。
本研究は,シーングラフに基づく画像操作の品質と精度を高めるためのアプローチの可能性を示すものである。
論文 参考訳(メタデータ) (2023-11-03T21:30:34Z) - MM-3DScene: 3D Scene Understanding by Customizing Masked Modeling with
Informative-Preserved Reconstruction and Self-Distilled Consistency [120.9499803967496]
本稿では,地域統計を探索し,代表的構造化点の発見と保存を行う新しい情報保存型再構築法を提案する。
本手法は, 地域形状のモデル化に集中し, マスク復元のあいまいさを軽減できる。
マスク付き領域における情報保存型再構築と未加工領域からの連続自己蒸留を組み合わせることにより,MM-3DSceneと呼ばれる統合フレームワークが提供される。
論文 参考訳(メタデータ) (2022-12-20T01:53:40Z) - High-Quality Entity Segmentation [110.55724145851725]
CropFormerは高解像度画像におけるインスタンスレベルのセグメンテーションの難易度に対処するために設計されている。
よりきめ細かい画像とフルイメージを提供する高解像度の画像作物を融合することで、マスク予測を改善する。
CropFormerでは、難易度の高いエンティティセグメンテーションタスクで1.9ドルという大きなAP利益を達成しています。
論文 参考訳(メタデータ) (2022-11-10T18:58:22Z) - Unsupervised Structure-Consistent Image-to-Image Translation [6.282068591820945]
Swapping Autoencoderは、ディープイメージ操作と画像から画像への変換において最先端のパフォーマンスを達成した。
我々は、勾配反転層に基づく単純で効果的な補助モジュールを導入することにより、この作業を改善する。
補助モジュールの損失は、ジェネレータが全ゼロテクスチャコードでイメージを再構築することを学ぶことを強制する。
論文 参考訳(メタデータ) (2022-08-24T13:47:15Z) - Semantic Layout Manipulation with High-Resolution Sparse Attention [106.59650698907953]
本稿では,意味ラベルマップを編集して入力画像を操作するセマンティックイメージレイアウト操作の課題に対処する。
このタスクの中核的な問題は、視覚的にイメージを現実的にしながら、入力画像から新しいセマンティックレイアウトに視覚的な詳細を転送する方法です。
512×512の解像度で視覚的詳細を新しいレイアウトに効果的に転送する高分解能スパースアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2020-12-14T06:50:43Z) - Bridging Composite and Real: Towards End-to-end Deep Image Matting [88.79857806542006]
画像マッチングにおける意味論と細部の役割について検討する。
本稿では,共有エンコーダと2つの分離デコーダを用いた新しいGlance and Focus Matting Network(GFM)を提案する。
総合的な実証研究により、GFMは最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2020-10-30T10:57:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。