論文の概要: MaGGIe: Masked Guided Gradual Human Instance Matting
- arxiv url: http://arxiv.org/abs/2404.16035v1
- Date: Wed, 24 Apr 2024 17:59:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 18:22:04.769461
- Title: MaGGIe: Masked Guided Gradual Human Instance Matting
- Title(参考訳): MaGGIe:Masked Guided Gradual Human Instance Matting
- Authors: Chuong Huynh, Seoung Wug Oh, Abhinav Shrivastava, Joon-Young Lee,
- Abstract要約: 我々は新しいフレームワークMaGGIe, Masked Guided Gradual Human Instance Mattingを提案する。
計算コスト、精度、一貫性を維持しながら、人間のインスタンスごとのアルファ行列を段階的に予測する。
- 参考スコア(独自算出の注目度): 71.22209465934651
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human matting is a foundation task in image and video processing, where human foreground pixels are extracted from the input. Prior works either improve the accuracy by additional guidance or improve the temporal consistency of a single instance across frames. We propose a new framework MaGGIe, Masked Guided Gradual Human Instance Matting, which predicts alpha mattes progressively for each human instances while maintaining the computational cost, precision, and consistency. Our method leverages modern architectures, including transformer attention and sparse convolution, to output all instance mattes simultaneously without exploding memory and latency. Although keeping constant inference costs in the multiple-instance scenario, our framework achieves robust and versatile performance on our proposed synthesized benchmarks. With the higher quality image and video matting benchmarks, the novel multi-instance synthesis approach from publicly available sources is introduced to increase the generalization of models in real-world scenarios.
- Abstract(参考訳): ヒューマン・マッティング(Human matting)は、画像およびビデオ処理における基礎的なタスクであり、入力から人間の前景ピクセルを抽出する。
以前の作業では、追加のガイダンスによって精度を向上させるか、フレーム間の単一インスタンスの時間的一貫性を改善するかのどちらかだった。
我々は,計算コスト,精度,整合性を維持しつつ,ヒトのインスタンスごとのα行列を段階的に予測する新しいフレームワークであるMasked Guided Gradual Human Instance Mattingを提案する。
提案手法はトランスフォーマーアテンションやスパースコンボリューションなど,現代的なアーキテクチャを活用して,メモリやレイテンシを爆発させることなく,すべてのインスタンスマットを同時に出力する。
提案手法は,マルチインスタンスシナリオにおいて一定の推論コストを抑えながら,提案したベンチマーク上で頑健かつ多目的な性能を実現する。
高品質な画像とビデオのマッチングベンチマークにより、実世界のシナリオにおけるモデルの一般化を促進するために、公開されているソースからの新規なマルチインスタンス合成アプローチが導入された。
関連論文リスト
- Masked Generative Story Transformer with Character Guidance and Caption
Augmentation [2.1392064955842023]
ストーリービジュアライゼーションは、生成した画像シーケンス内の異なるフレーム間の視覚的品質と一貫性の両方を必要とする、難しい生成的視覚タスクである。
以前のアプローチでは、イメージシーケンスの自動回帰生成を通してコンテキストを維持するために何らかのメモリメカニズムを使用していたり、文字とその背景の生成を別々にモデル化したりしていた。
我々は,過去と将来のキャプションとのクロスアテンションに頼って整合性を実現する,完全に並列なトランスフォーマーベースのアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-13T13:10:20Z) - End-to-End Human Instance Matting [27.96723058460764]
ヒューマン・インスタンス・マッティングは画像内の各人間のインスタンスのアルファ・マットを推定することを目的としている。
本稿では,複数インスタンスの同時マッチングのための新しいエンド・ツー・エンドヒューマン・インスタンス・マッティング(E2E-HIM)フレームワークを提案する。
E2E-HIMは、既存のメソッドよりも50%低いエラーと5倍速いスピードで、人間のインスタンスマッチングに優れています。
論文 参考訳(メタデータ) (2024-03-03T13:17:10Z) - Mixing Histopathology Prototypes into Robust Slide-Level Representations
for Cancer Subtyping [19.577541771516124]
計算病理学の手法による全スライディング画像解析は、しばしば、スライドレベルラベルのみが利用可能なテッセル化ギガピクセル画像の処理に依存している。
複数のインスタンス学習手法やトランスフォーマーモデルを適用することは、各イメージとして計算コストが高く、すべてのインスタンスを同時に処理する必要がある。
TheMixerは、特に大規模データセットにおいて、一般的なビジョントランスフォーマーの未探索の代替モデルである。
論文 参考訳(メタデータ) (2023-10-19T14:15:20Z) - GD-MAE: Generative Decoder for MAE Pre-training on LiDAR Point Clouds [72.60362979456035]
Masked Autoencoders (MAE)は、大規模な3Dポイントクラウドでの探索が難しい。
我々は,周囲のコンテキストを自動的にマージするためのtextbfGenerative textbfDecoder for MAE (GD-MAE)を提案する。
提案手法の有効性を, KITTI と ONCE の2つの大規模ベンチマークで実証した。
論文 参考訳(メタデータ) (2022-12-06T14:32:55Z) - Human Instance Matting via Mutual Guidance and Multi-Instance Refinement [70.06185123355249]
我々は、Human instance matting (HIM)と呼ばれる新しいマットタスクを導入する。
HIMは、人間のインスタンスごとに正確なアルファマットを自動的に予測するために、関連するモデルを必要とする。
予備結果は、一般的なインスタンス・マッティング(英語版)で示される。
論文 参考訳(メタデータ) (2022-05-22T06:56:52Z) - MAT: Mask-Aware Transformer for Large Hole Image Inpainting [79.67039090195527]
本稿では, 変圧器と畳み込みの利点を統一する, 大穴塗装の新しいモデルを提案する。
実験では、複数のベンチマークデータセット上で、新しいモデルの最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-29T06:36:17Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z) - Bridging Composite and Real: Towards End-to-end Deep Image Matting [88.79857806542006]
画像マッチングにおける意味論と細部の役割について検討する。
本稿では,共有エンコーダと2つの分離デコーダを用いた新しいGlance and Focus Matting Network(GFM)を提案する。
総合的な実証研究により、GFMは最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2020-10-30T10:57:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。