論文の概要: Boosting Robustness of Image Matting with Context Assembling and Strong
Data Augmentation
- arxiv url: http://arxiv.org/abs/2201.06889v1
- Date: Tue, 18 Jan 2022 11:45:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-19 16:51:23.317768
- Title: Boosting Robustness of Image Matting with Context Assembling and Strong
Data Augmentation
- Title(参考訳): コンテクストアセンブルと強いデータ拡張によるイメージマットリングのロバスト性向上
- Authors: Yutong Dai and Brian Price and He Zhang and Chunhua Shen
- Abstract要約: トリマップへのロバストさと、異なる領域の画像への一般化はまだ未定である。
マルチレベルコンテキストアッセンブルと強力なデータ拡張により高ロバスト性(RMat)を実現する画像マッチング手法を提案する。
- 参考スコア(独自算出の注目度): 83.31087402305306
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deep image matting methods have achieved increasingly better results on
benchmarks (e.g., Composition-1k/alphamatting.com). However, the robustness,
including robustness to trimaps and generalization to images from different
domains, is still under-explored. Although some works propose to either refine
the trimaps or adapt the algorithms to real-world images via extra data
augmentation, none of them has taken both into consideration, not to mention
the significant performance deterioration on benchmarks while using those data
augmentation. To fill this gap, we propose an image matting method which
achieves higher robustness (RMat) via multilevel context assembling and strong
data augmentation targeting matting. Specifically, we first build a strong
matting framework by modeling ample global information with transformer blocks
in the encoder, and focusing on details in combination with convolution layers
as well as a low-level feature assembling attention block in the decoder. Then,
based on this strong baseline, we analyze current data augmentation and explore
simple but effective strong data augmentation to boost the baseline model and
contribute a more generalizable matting method. Compared with previous methods,
the proposed method not only achieves state-of-the-art results on the
Composition-1k benchmark (11% improvement on SAD and 27% improvement on Grad)
with smaller model size, but also shows more robust generalization results on
other benchmarks, on real-world images, and also on varying coarse-to-fine
trimaps with our extensive experiments.
- Abstract(参考訳): ディープ・イメージ・マッティング法は、ベンチマーク(例えば Composic-1k/alphamatting.com)でより優れた結果を得た。
しかし、トリマップへの堅牢性や異なる領域の画像への一般化など、堅牢性はまだ未定である。
トリマップの改良や、追加のデータ拡張による実世界画像へのアルゴリズムの適用を提案している作品もあるが、これらのデータ拡張を用いたベンチマークでの大幅なパフォーマンス低下は言うまでもなく、いずれも考慮されていない。
このギャップを埋めるために,マルチレベルコンテキストアセンブラと強力なデータ拡張により高ロバスト性(RMat)を実現する画像マッチング手法を提案する。
具体的には,まず,エンコーダ内のトランスフォーマーブロックと多量のグローバル情報をモデル化し,畳み込み層と組み合わせた詳細情報と,デコーダ内のアテンションブロックを組み込む低レベル機能に注目して,強力なマットングフレームワークを構築した。
そして、この強いベースラインに基づいて、現在のデータ拡張を分析し、ベースラインモデルを強化し、より一般化されたマッティング方法に貢献するために、シンプルで効果的な強力なデータ拡張を探索する。
従来の手法と比較して,提案手法はモデルサイズを小さくしたCompose-1kベンチマーク(SADが11%,Gradが27%)の最先端結果を達成するだけでなく,他のベンチマークや実世界の画像,さらには広範囲な実験による粗大なトリマップもより堅牢な一般化結果を示す。
関連論文リスト
- Learning Image Deraining Transformer Network with Dynamic Dual
Self-Attention [46.11162082219387]
本稿では,動的二重自己アテンション(DDSA)を用いた画像デコライニング変換器を提案する。
具体的には、トップk近似計算に基づいて、最も有用な類似度値のみを選択し、スパースアテンションを実現する。
また,高品質な定位結果を得るためのより正確な表現を実現するために,新しい空間拡張フィードフォワードネットワーク(SEFN)を開発した。
論文 参考訳(メタデータ) (2023-08-15T13:59:47Z) - Few-shot Image Classification based on Gradual Machine Learning [6.935034849731568]
少ないショット画像分類は、ラベル付きサンプルのみを使用してラベル付きイメージを正確に分類することを目的としている。
段階的機械学習(GML)の非i.dパラダイムに基づく新しいアプローチを提案する。
提案手法は精度でSOTAの性能を1-5%向上させることができることを示す。
論文 参考訳(メタデータ) (2023-07-28T12:30:41Z) - GD-MAE: Generative Decoder for MAE Pre-training on LiDAR Point Clouds [72.60362979456035]
Masked Autoencoders (MAE)は、大規模な3Dポイントクラウドでの探索が難しい。
我々は,周囲のコンテキストを自動的にマージするためのtextbfGenerative textbfDecoder for MAE (GD-MAE)を提案する。
提案手法の有効性を, KITTI と ONCE の2つの大規模ベンチマークで実証した。
論文 参考訳(メタデータ) (2022-12-06T14:32:55Z) - Local Magnification for Data and Feature Augmentation [53.04028225837681]
LOMA(Local Magnification)と呼ばれる,実装が容易かつモデルフリーなデータ拡張手法を提案する。
LOMAは、画像の局所領域をランダムに拡大することにより、追加のトレーニングデータを生成する。
実験の結果,提案するLOMAと標準データ拡張を組み合わせることで,画像分類や物体検出の性能を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-11-15T02:51:59Z) - Feature transforms for image data augmentation [74.12025519234153]
画像分類において、多くの拡張アプローチは単純な画像操作アルゴリズムを利用する。
本研究では,14種類の拡張アプローチを組み合わせて生成した画像を追加することで,データレベルでのアンサンブルを構築する。
事前トレーニングされたResNet50ネットワークは、各拡張メソッドから派生した画像を含むトレーニングセットに基づいて微調整される。
論文 参考訳(メタデータ) (2022-01-24T14:12:29Z) - Contrastive Learning with Stronger Augmentations [63.42057690741711]
本論文では,現在のコントラスト学習のアプローチを補完する,より強い拡張(A)によるコントラスト学習という汎用フレームワークを提案する。
ここでは、表現バンク上の弱強調画像と強拡張画像との間の分布のばらつきを利用して、強拡張クエリの検索を監督する。
実験では、強力な画像からの情報により、パフォーマンスが大幅に向上します。
論文 参考訳(メタデータ) (2021-04-15T18:40:04Z) - FeatMatch: Feature-Based Augmentation for Semi-Supervised Learning [64.32306537419498]
本稿では,複雑な変換を多様に生成する特徴量に基づく改良・拡張手法を提案する。
これらの変換は、クラスタリングを通じて抽出したクラス内およびクラス間の両方の情報も利用します。
提案手法は,大規模データセットにスケールアップしながら,より小さなデータセットに対して,現在の最先端技術に匹敵するものであることを実証する。
論文 参考訳(メタデータ) (2020-07-16T17:55:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。