論文の概要: Training-Free Neural Matte Extraction for Visual Effects
- arxiv url: http://arxiv.org/abs/2306.17321v1
- Date: Thu, 29 Jun 2023 22:08:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-03 13:50:55.211254
- Title: Training-Free Neural Matte Extraction for Visual Effects
- Title(参考訳): 視覚効果のためのトレーニングフリー神経マット抽出
- Authors: Sharif Elcott, J.P. Lewis, Nori Kanazawa, Christoph Bregler
- Abstract要約: アルファマットはビデオ会議や映画、テレビ、ソーシャルメディアで広く使われている。
マット抽出問題に対する深層学習のアプローチは、一貫した主題のため、ビデオ会議に適している。
本稿では,視覚効果生成の仮定を特に対象とする,トレーニング不要な高品質なニューラルネットワーク抽出手法を提案する。
- 参考スコア(独自算出の注目度): 4.91173926165739
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Alpha matting is widely used in video conferencing as well as in movies,
television, and social media sites. Deep learning approaches to the matte
extraction problem are well suited to video conferencing due to the consistent
subject matter (front-facing humans), however training-based approaches are
somewhat pointless for entertainment videos where varied subjects (spaceships,
monsters, etc.) may appear only a few times in a single movie -- if a method of
creating ground truth for training exists, just use that method to produce the
desired mattes. We introduce a training-free high quality neural matte
extraction approach that specifically targets the assumptions of visual effects
production. Our approach is based on the deep image prior, which optimizes a
deep neural network to fit a single image, thereby providing a deep encoding of
the particular image. We make use of the representations in the penultimate
layer to interpolate coarse and incomplete "trimap" constraints. Videos
processed with this approach are temporally consistent. The algorithm is both
very simple and surprisingly effective.
- Abstract(参考訳): alpha mattingはビデオ会議や映画、テレビ、ソーシャルメディアサイトで広く使われている。
マット抽出問題に対するディープラーニングアプローチは、一貫した主題(正面の人間)のためにビデオ会議に適しているが、トレーニングベースのアプローチは、さまざまな主題(宇宙船、モンスターなど)が1本の映画にわずか数回しか現れないエンターテイメントビデオには、ある程度無意味である。
視覚効果生成の仮定を特に対象とする,トレーニングフリーの高品質なニューラルネットワーク抽出手法を提案する。
我々のアプローチは、ディープニューラルネットワークを最適化して単一のイメージに適合させ、特定のイメージのディープエンコーディングを提供するディープイメージに基づいています。
我々は、ペナルティメート層における表現を用いて、粗く不完全な「トリマップ」制約を補間する。
このアプローチで処理されたビデオは時間的に一貫性がある。
アルゴリズムは非常にシンプルで驚くほど効果的です。
関連論文リスト
- Harvest Video Foundation Models via Efficient Post-Pretraining [67.30842563833185]
本稿では,画像から映像基盤モデルを抽出する効率的なフレームワークを提案する。
提案手法は,入力ビデオパッチをランダムにドロップし,プレトレーニング後の入力テキストをマスクアウトすることで,直感的に簡単である。
提案手法は,プレトレーニング済みの映像基盤モデルに匹敵する,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-10-30T14:06:16Z) - Time Does Tell: Self-Supervised Time-Tuning of Dense Image
Representations [79.87044240860466]
本稿では,高密度自己教師あり学習における時間的一貫性を取り入れた新しい手法を提案する。
タイムチューニング(time-tuning)と呼ぶ我々のアプローチは、画像事前学習モデルから始まり、ラベルなしビデオに新たな自己教師付き時間的アライメントクラスタリングロスを伴って微調整を行う。
タイムチューニングは、教師なしのセマンティックセマンティックセグメンテーションを8~10%改善し、画像にマッチさせる。
論文 参考訳(メタデータ) (2023-08-22T21:28:58Z) - HQ3DAvatar: High Quality Controllable 3D Head Avatar [65.70885416855782]
本稿では,高フォトリアリスティックなデジタルヘッドアバターを構築するための新しいアプローチを提案する。
本手法はニューラルネットワークによってパラメータ化された暗黙関数を用いて標準空間を学習する。
テスト時,本手法は単眼のRGBビデオによって駆動される。
論文 参考訳(メタデータ) (2023-03-25T13:56:33Z) - Deep Video Prior for Video Consistency and Propagation [58.250209011891904]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。
提案手法は,大規模なデータセットではなく,オリジナルビデオとプロセッシングビデオのペアでのみ訓練される。
我々は、Deep Video Priorでビデオ上で畳み込みニューラルネットワークをトレーニングすることで、時間的一貫性を実現することができることを示す。
論文 参考訳(メタデータ) (2022-01-27T16:38:52Z) - TermiNeRF: Ray Termination Prediction for Efficient Neural Rendering [18.254077751772005]
ニューラルネットワークを用いたボリュームレンダリングは、3Dシーンの新たなビューをキャプチャして合成する上で大きな可能性を秘めている。
この種のアプローチでは、画像をレンダリングするために、各ビューレイに沿って複数のポイントでボリュームネットワークをクエリする必要がある。
本稿では,この限界を克服するために,画素の最終的な外観に影響を与える可能性が最も高いカメラ線から,光線に沿った位置への直接マッピングを学習する手法を提案する。
論文 参考訳(メタデータ) (2021-11-05T17:50:44Z) - Temporally Coherent Person Matting Trained on Fake-Motion Dataset [0.0]
本稿では,トリマップのような付加的なユーザ入力を必要としない人物を描写したビデオのマッチングを行う新しい手法を提案する。
本アーキテクチャは,画像分割アルゴリズム出力の運動推定に基づく平滑化を用いて,結果のアルファ行列の時間的安定性を実現する。
また,地味なアルファ・マットとバックグラウンド・ビデオで撮影されたビデオ・マッティング・ネットワークのトレーニング・クリップを生成するフェイク・モーション・アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-09-10T12:53:11Z) - Attention-guided Temporal Coherent Video Object Matting [78.82835351423383]
本稿では,時間的コヒーレントなマッチング結果が得られる深層学習に基づくオブジェクトマッチング手法を提案する。
中心となるコンポーネントは、画像マッチングネットワークの強度を最大化するアテンションベースの時間アグリゲーションモジュールである。
本稿では,最先端のビデオオブジェクトセグメンテーションネットワークを微調整することで,トリマップ生成問題を効果的に解決する方法を示す。
論文 参考訳(メタデータ) (2021-05-24T17:34:57Z) - Unsupervised Learning of Monocular Depth and Ego-Motion Using Multiple
Masks [14.82498499423046]
本稿では,モノクロ映像からの複数のマスクを用いた深度・エゴモーションの教師なし学習手法を提案する。
深度推定ネットワークとエゴモーション推定ネットワークは、真理値のない深度とエゴモーションの制約に応じて訓練される。
KITTIデータセットの実験は、深度と自我運動の点で良好なパフォーマンスを達成していることを示す。
論文 参考訳(メタデータ) (2021-04-01T12:29:23Z) - Blind Video Temporal Consistency via Deep Video Prior [61.062900556483164]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。
本手法は,一対のオリジナルビデオとプロセッシングビデオを直接トレーニングするのみである。
本稿では,Deep Video Priorを用いてビデオ上の畳み込みネットワークをトレーニングすることにより,時間的一貫性を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-22T16:19:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。