Fugu-MT 論文翻訳(概要): MaGGIe: Masked Guided Gradual Human Instance Matting

論文の概要: MaGGIe: Masked Guided Gradual Human Instance Matting

arxiv url: http://arxiv.org/abs/2404.16035v1
Date: Wed, 24 Apr 2024 17:59:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-26 18:22:04.769461
Title: MaGGIe: Masked Guided Gradual Human Instance Matting
Title（参考訳）: MaGGIe:Masked Guided Gradual Human Instance Matting
Authors: Chuong Huynh, Seoung Wug Oh, Abhinav Shrivastava, Joon-Young Lee,
Abstract要約: 我々は新しいフレームワークMaGGIe, Masked Guided Gradual Human Instance Mattingを提案する。計算コスト、精度、一貫性を維持しながら、人間のインスタンスごとのアルファ行列を段階的に予測する。
参考スコア（独自算出の注目度）: 71.22209465934651
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Human matting is a foundation task in image and video processing, where human foreground pixels are extracted from the input. Prior works either improve the accuracy by additional guidance or improve the temporal consistency of a single instance across frames. We propose a new framework MaGGIe, Masked Guided Gradual Human Instance Matting, which predicts alpha mattes progressively for each human instances while maintaining the computational cost, precision, and consistency. Our method leverages modern architectures, including transformer attention and sparse convolution, to output all instance mattes simultaneously without exploding memory and latency. Although keeping constant inference costs in the multiple-instance scenario, our framework achieves robust and versatile performance on our proposed synthesized benchmarks. With the higher quality image and video matting benchmarks, the novel multi-instance synthesis approach from publicly available sources is introduced to increase the generalization of models in real-world scenarios.
Abstract（参考訳）: ヒューマン・マッティング(Human matting)は、画像およびビデオ処理における基礎的なタスクであり、入力から人間の前景ピクセルを抽出する。以前の作業では、追加のガイダンスによって精度を向上させるか、フレーム間の単一インスタンスの時間的一貫性を改善するかのどちらかだった。我々は,計算コスト,精度,整合性を維持しつつ,ヒトのインスタンスごとのα行列を段階的に予測する新しいフレームワークであるMasked Guided Gradual Human Instance Mattingを提案する。提案手法はトランスフォーマーアテンションやスパースコンボリューションなど,現代的なアーキテクチャを活用して,メモリやレイテンシを爆発させることなく,すべてのインスタンスマットを同時に出力する。提案手法は,マルチインスタンスシナリオにおいて一定の推論コストを抑えながら,提案したベンチマーク上で頑健かつ多目的な性能を実現する。高品質な画像とビデオのマッチングベンチマークにより、実世界のシナリオにおけるモデルの一般化を促進するために、公開されているソースからの新規なマルチインスタンス合成アプローチが導入された。

関連論文リスト

Linear Attention with Global Context: A Multipole Attention Mechanism for Vision and Physics [42.41787036246253]
本稿では,マルチポール注意ニューラル演算子 (MANO) について紹介する。我々は,MANOがViTやSwin Transformerといった最先端モデルと競合する一方で,実行時およびピークメモリ使用量を桁違いに削減していることを示す。
論文参考訳（メタデータ） (2025-07-03T16:05:26Z)
HumanRAM: Feed-forward Human Reconstruction and Animation Model using Transformers [60.86393841247567]
HumanRAMは、モノクル画像やスパース画像から人間の再構築とアニメーションを一般化するための、新しいフィードフォワードアプローチである。提案手法は,人間の再構築とアニメーションを,明示的なポーズ条件を導入することによって統合された枠組みに統合する。実験の結果,HumanRAMは再現精度,アニメーション忠実度,実世界のデータセット上での一般化性能において,従来の手法をはるかに上回っていることがわかった。
論文参考訳（メタデータ） (2025-06-03T17:50:05Z)
DGTR: Distributed Gaussian Turbo-Reconstruction for Sparse-View Vast Scenes [81.56206845824572]
新規ビュー合成(NVS)アプローチは、広大なシーン再構築において重要な役割を担っている。大規模な環境下では、復元の質が悪くなる場合が少なくない。本稿では,スパース・ビュー・ワイド・シーンのための効率的なガウス再構成のための分散フレームワークであるDGTRを提案する。
論文参考訳（メタデータ） (2024-11-19T07:51:44Z)
HumanSplat: Generalizable Single-Image Human Gaussian Splatting with Structure Priors [47.62426718293504]
HumanSplatは、単一の入力画像から、任意の人間の3次元ガウススプティング特性を予測する。 HumanSplatは、フォトリアリスティックなノベルビュー合成を実現するために、既存の最先端の手法を超越している。
論文参考訳（メタデータ） (2024-06-18T10:05:33Z)
GenS: Generalizable Neural Surface Reconstruction from Multi-View Images [20.184657468900852]
GenSは、エンドツーエンドの一般化可能なニューラルサーフェス再構成モデルである。我々の表現はより強力であり、グローバルな滑らかさを維持しながら高周波の詳細を回復することができる。人気のあるベンチマーク実験により、我々のモデルは新たなシーンにうまく一般化できることが示された。
論文参考訳（メタデータ） (2024-06-04T17:13:10Z)
Masked Generative Story Transformer with Character Guidance and Caption Augmentation [2.1392064955842023]
ストーリービジュアライゼーションは、生成した画像シーケンス内の異なるフレーム間の視覚的品質と一貫性の両方を必要とする、難しい生成的視覚タスクである。以前のアプローチでは、イメージシーケンスの自動回帰生成を通してコンテキストを維持するために何らかのメモリメカニズムを使用していたり、文字とその背景の生成を別々にモデル化したりしていた。我々は,過去と将来のキャプションとのクロスアテンションに頼って整合性を実現する,完全に並列なトランスフォーマーベースのアプローチを提案する。
論文参考訳（メタデータ） (2024-03-13T13:10:20Z)
End-to-End Human Instance Matting [27.96723058460764]
ヒューマン・インスタンス・マッティングは画像内の各人間のインスタンスのアルファ・マットを推定することを目的としている。本稿では,複数インスタンスの同時マッチングのための新しいエンド・ツー・エンドヒューマン・インスタンス・マッティング(E2E-HIM)フレームワークを提案する。 E2E-HIMは、既存のメソッドよりも50%低いエラーと5倍速いスピードで、人間のインスタンスマッチングに優れています。
論文参考訳（メタデータ） (2024-03-03T13:17:10Z)
GD-MAE: Generative Decoder for MAE Pre-training on LiDAR Point Clouds [72.60362979456035]
Masked Autoencoders (MAE)は、大規模な3Dポイントクラウドでの探索が難しい。我々は,周囲のコンテキストを自動的にマージするためのtextbfGenerative textbfDecoder for MAE (GD-MAE)を提案する。提案手法の有効性を, KITTI と ONCE の2つの大規模ベンチマークで実証した。
論文参考訳（メタデータ） (2022-12-06T14:32:55Z)
Human Instance Matting via Mutual Guidance and Multi-Instance Refinement [70.06185123355249]
我々は、Human instance matting (HIM)と呼ばれる新しいマットタスクを導入する。 HIMは、人間のインスタンスごとに正確なアルファマットを自動的に予測するために、関連するモデルを必要とする。予備結果は、一般的なインスタンス・マッティング(英語版)で示される。
論文参考訳（メタデータ） (2022-05-22T06:56:52Z)
Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文参考訳（メタデータ） (2021-06-30T22:44:12Z)
Bridging Composite and Real: Towards End-to-end Deep Image Matting [88.79857806542006]
画像マッチングにおける意味論と細部の役割について検討する。本稿では,共有エンコーダと2つの分離デコーダを用いた新しいGlance and Focus Matting Network(GFM)を提案する。総合的な実証研究により、GFMは最先端の手法より優れていることが示されている。
論文参考訳（メタデータ） (2020-10-30T10:57:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。