論文の概要: Less is More: Consistent Video Depth Estimation with Masked Frames
Modeling
- arxiv url: http://arxiv.org/abs/2208.00380v1
- Date: Sun, 31 Jul 2022 07:11:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-02 13:46:31.647504
- Title: Less is More: Consistent Video Depth Estimation with Masked Frames
Modeling
- Title(参考訳): less is more: masked frames modelingによるビデオ奥行き推定の一貫性
- Authors: Yiran Wang, Zhiyu Pan, Xingyi Li, Zhiguo Cao, Ke Xian, Jianming Zhang
- Abstract要約: 時間的一貫性はビデオ深度推定の鍵となる課題である。
隣接するフレームからマスクフレームの深さを予測するフレームマスキングネットワーク(FMNet)を提案する。
先行技術と比較して,提案手法は空間的精度と時間的整合性に比較して,付加的な情報を持たずに達成できることが実験的に証明された。
- 参考スコア(独自算出の注目度): 41.177591332503255
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal consistency is the key challenge of video depth estimation. Previous
works are based on additional optical flow or camera poses, which is
time-consuming. By contrast, we derive consistency with less information. Since
videos inherently exist with heavy temporal redundancy, a missing frame could
be recovered from neighboring ones. Inspired by this, we propose the frame
masking network (FMNet), a spatial-temporal transformer network predicting the
depth of masked frames based on their neighboring frames. By reconstructing
masked temporal features, the FMNet can learn intrinsic inter-frame
correlations, which leads to consistency. Compared with prior arts,
experimental results demonstrate that our approach achieves comparable spatial
accuracy and higher temporal consistency without any additional information.
Our work provides a new perspective on consistent video depth estimation.
- Abstract(参考訳): 時間的一貫性はビデオ深度推定の重要な課題である。
これまでの作業は、時間を要する追加の光学フローやカメラのポーズに基づいている。
対照的に、少ない情報で一貫性を導きます。
ビデオは本質的に時間的冗長性が強いため、行方不明のフレームは隣のフレームから復元できる。
そこで,本稿では,フレームマスキングネットワーク (fmnet) を提案する。フレームマスキングネットワークは,隣接フレームに基づいてマスキングフレームの深さを予測する空間時空間トランスフォーマーネットワークである。
マスク付き時間的特徴を再構築することにより、FMNetは固有のフレーム間の相関を学習し、一貫性をもたらす。
先行技術と比較すると,提案手法は空間的精度と時間的整合性に優れ,付加的な情報がないことを示す。
我々の研究は、一貫したビデオ深度推定の新しい視点を提供する。
関連論文リスト
- Learning Temporally Consistent Video Depth from Video Diffusion Priors [57.929828486615605]
本研究は,映像深度推定の課題に対処する。
我々は予測タスクを条件付き生成問題に再構成する。
これにより、既存のビデオ生成モデルに埋め込まれた事前の知識を活用することができる。
論文 参考訳(メタデータ) (2024-06-03T16:20:24Z) - RIGID: Recurrent GAN Inversion and Editing of Real Face Videos [73.97520691413006]
GANのインバージョンは、実画像に強力な編集可能性を適用するのに不可欠である。
既存のビデオフレームを個別に反転させる手法は、時間の経過とともに望ましくない一貫性のない結果をもたらすことが多い。
我々は、textbfRecurrent vtextbfIdeo textbfGAN textbfInversion and etextbfDiting (RIGID) という統合されたリカレントフレームワークを提案する。
本フレームワークは,入力フレーム間の固有コヒーレンスをエンドツーエンドで学習する。
論文 参考訳(メタデータ) (2023-08-11T12:17:24Z) - Temporally Consistent Online Depth Estimation Using Point-Based Fusion [6.5514240555359455]
ビデオストリームの時間的一貫した深度マップをオンライン環境で推定することを目的としている。
これは、将来のフレームが利用できないため難しい問題であり、メソッドは、一貫性を強制するか、以前の推定からエラーを修正するかを選択する必要がある。
本稿では、各フレームを動的に更新するグローバルポイントクラウドと、画像空間における学習的融合アプローチを用いて、これらの課題に対処することを提案する。
論文 参考訳(メタデータ) (2023-04-15T00:04:18Z) - Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-14T18:54:13Z) - Temporally Consistent Online Depth Estimation in Dynamic Scenes [17.186528244457055]
拡張現実のようなリアルタイムアプリケーションには、時間的に一貫した深さ推定が不可欠である。
オンライン環境における動的シーンにおける時間的一貫した深度推定を行う手法を提案する。
我々のネットワークは、フレームごとの現在のステレオネットワークを新しい動きと融合ネットワークで拡張する。
論文 参考訳(メタデータ) (2021-11-17T19:00:51Z) - Intrinsic Temporal Regularization for High-resolution Human Video
Synthesis [59.54483950973432]
時間整合性は、画像処理パイプラインをビデオドメインに拡張する上で重要である。
フレームジェネレーターを介して本質的信頼度マップを推定し,運動推定を調節する,本質的な時間正規化方式を提案する。
我々は、本質的な時間的規制をシングルイメージジェネレータに適用し、強力な「Internet」が512Times512$の人間のアクションビデオを生成します。
論文 参考訳(メタデータ) (2020-12-11T05:29:45Z) - Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。
そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文 参考訳(メタデータ) (2020-02-26T12:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。