論文の概要: Lightweight Portrait Matting via Regional Attention and Refinement
- arxiv url: http://arxiv.org/abs/2311.03770v1
- Date: Tue, 7 Nov 2023 07:14:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 16:23:52.499928
- Title: Lightweight Portrait Matting via Regional Attention and Refinement
- Title(参考訳): 地域的注意と洗練による軽量ポートレートマットリング
- Authors: Yatao Zhong and Ilya Zharkov
- Abstract要約: 我々は高解像度のポートレート・マッティングのための軽量モデルを提案する。
モデルはトリマップやバックグラウンドキャプチャのような補助的な入力を使用しない。
HDビデオではリアルタイムのパフォーマンスを実現し、4Kではほぼリアルタイムである。
- 参考スコア(独自算出の注目度): 7.206702064210176
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a lightweight model for high resolution portrait matting. The
model does not use any auxiliary inputs such as trimaps or background captures
and achieves real time performance for HD videos and near real time for 4K. Our
model is built upon a two-stage framework with a low resolution network for
coarse alpha estimation followed by a refinement network for local region
improvement. However, a naive implementation of the two-stage model suffers
from poor matting quality if not utilizing any auxiliary inputs. We address the
performance gap by leveraging the vision transformer (ViT) as the backbone of
the low resolution network, motivated by the observation that the tokenization
step of ViT can reduce spatial resolution while retain as much pixel
information as possible. To inform local regions of the context, we propose a
novel cross region attention (CRA) module in the refinement network to
propagate the contextual information across the neighboring regions. We
demonstrate that our method achieves superior results and outperforms other
baselines on three benchmark datasets while only uses $1/20$ of the FLOPS
compared to the existing state-of-the-art model.
- Abstract(参考訳): 我々は高解像度ポートレートマッチングのための軽量モデルを提案する。
このモデルはトリマップや背景キャプチャなどの補助入力を一切使用せず、hdビデオのリアルタイム性能と4kのほぼリアルタイム性能を実現している。
本モデルでは, 粗アルファ推定のための低分解能ネットワークと, 局所領域改善のための改良ネットワークを備えた2段階フレームワークを構築した。
しかし,この2段階モデルでは,補助入力を使わなければマットング品質が低下する。
本稿では,視覚トランスフォーマ(vit)を低解像度ネットワークのバックボーンとして活用することで,vitのトークン化ステップが可能な限り多くの画素情報を保持しつつ空間分解能を低減できるという観測を動機とする。
そこで本研究では,周辺地域のコンテキスト情報を伝達するための改良ネットワークにおける新しいクロスリージョンアテンション(CRA)モジュールを提案する。
提案手法は,既存の最先端モデルと比較して,FLOPSの1/20ドルしか使用せず,3つのベンチマークデータセット上で他のベースラインよりも優れていることを示す。
関連論文リスト
- DRCT: Saving Image Super-resolution away from Information Bottleneck [7.765333471208582]
低レベルのビジョンタスクに対するビジョントランスフォーマーベースのアプローチは、広く成功している。
空間情報の損失を軽減するため,Dense-Residual-Connected Transformer (DRCT)を提案する。
提案手法は,ベンチマークデータセットの最先端手法を超越した手法である。
論文 参考訳(メタデータ) (2024-03-31T15:34:45Z) - FocusTune: Tuning Visual Localization through Focus-Guided Sampling [61.79440120153917]
FocusTuneは、視覚的ローカライゼーションアルゴリズムの性能を改善するための焦点誘導サンプリング技術である。
ACEの魅力ある低ストレージと計算要求を維持しながら、FocusTuneは最先端のパフォーマンスを改善したり、一致させたりします。
ハイパフォーマンスとローコンピュートとストレージの要件の組み合わせは、特にモバイルロボティクスや拡張現実といった分野のアプリケーションには有望だ。
論文 参考訳(メタデータ) (2023-11-06T04:58:47Z) - Optimization Efficient Open-World Visual Region Recognition [55.76437190434433]
RegionSpotは、ローカライゼーション基盤モデルから位置認識ローカライゼーション知識と、ViLモデルからのセマンティック情報を統合する。
オープンワールドオブジェクト認識の実験では、私たちのRereaSpotは、以前の代替よりも大きなパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-11-02T16:31:49Z) - Perceiver-VL: Efficient Vision-and-Language Modeling with Iterative
Latent Attention [100.81495948184649]
本稿では,長いビデオやテキストなどの高次元マルチモーダル入力を効率的に処理する視覚・言語フレームワークPerceiver-VLを提案する。
我々のフレームワークは、多くの最先端のトランスフォーマーベースモデルで使用される自己注意の二次的な複雑さとは対照的に、線形複雑性でスケールする。
論文 参考訳(メタデータ) (2022-11-21T18:22:39Z) - CLONeR: Camera-Lidar Fusion for Occupancy Grid-aided Neural
Representations [77.90883737693325]
本稿では,スパース入力センサビューから観測される大規模な屋外運転シーンをモデル化することで,NeRFを大幅に改善するCLONeRを提案する。
これは、NeRFフレームワーク内の占有率と色学習を、それぞれLiDARとカメラデータを用いてトレーニングされた個別のMulti-Layer Perceptron(MLP)に分離することで実現される。
さらに,NeRFモデルと平行に3D Occupancy Grid Maps(OGM)を構築する手法を提案し,この占有グリッドを利用して距離空間のレンダリングのために線に沿った点のサンプリングを改善する。
論文 参考訳(メタデータ) (2022-09-02T17:44:50Z) - SALISA: Saliency-based Input Sampling for Efficient Video Object
Detection [58.22508131162269]
ビデオオブジェクト検出のための新しい一様SALiencyベースの入力SAmpling技術であるSALISAを提案する。
SALISAは小物体の検出を著しく改善することを示す。
論文 参考訳(メタデータ) (2022-04-05T17:59:51Z) - Monocular Real-Time Volumetric Performance Capture [28.481131687883256]
本稿では,モノクロ映像から実時間速度でボリューム・パフォーマンス・キャプチャとノベル・ビュー・レンダリングを行うための最初のアプローチを提案する。
このシステムは,Pixel-Aligned Implicit Function (PIFu)を活用して,各フレームから完全にテクスチャ化された3次元人体を再構成する。
また,オンラインハード・サンプル・マイニング(OHEM)技術を導入し,難題の稀な発生により,障害モードを効果的に抑制する手法を提案する。
論文 参考訳(メタデータ) (2020-07-28T04:45:13Z) - Spatial-Spectral Residual Network for Hyperspectral Image
Super-Resolution [82.1739023587565]
ハイパースペクトル画像超解像のための新しいスペクトル空間残差ネットワーク(SSRNet)を提案する。
提案手法は,2次元畳み込みではなく3次元畳み込みを用いて空間スペクトル情報の探索を効果的に行うことができる。
各ユニットでは空間的・時間的分離可能な3次元畳み込みを用いて空間的・スペクトル的な情報を抽出する。
論文 参考訳(メタデータ) (2020-01-14T03:34:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。