論文の概要: Temporally Consistent Online Depth Estimation in Dynamic Scenes
- arxiv url: http://arxiv.org/abs/2111.09337v1
- Date: Wed, 17 Nov 2021 19:00:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2021-11-19 14:21:13.335787
- Title: Temporally Consistent Online Depth Estimation in Dynamic Scenes
- Title(参考訳): 動的シーンにおける時間的一貫性のあるオンライン深度推定
- Authors: Zhaoshuo Li, Wei Ye, Dilin Wang, Francis X. Creighton, Russell H.
Taylor, Ganesh Venkatesh, Mathias Unberath
- Abstract要約: 拡張現実のようなリアルタイムアプリケーションには、時間的に一貫した深さ推定が不可欠である。
オンライン環境における動的シーンにおける時間的一貫した深度推定を行う手法を提案する。
我々のネットワークは、フレームごとの現在のステレオネットワークを新しい動きと融合ネットワークで拡張する。
- 参考スコア(独自算出の注目度): 17.186528244457055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporally consistent depth estimation is crucial for real-time applications
such as augmented reality. While stereo depth estimation has received
substantial attention that led to improvements on a frame-by-frame basis, there
is relatively little work focused on maintaining temporal consistency across
frames. Indeed, based on our analysis, current stereo depth estimation
techniques still suffer from poor temporal consistency. Stabilizing depth
temporally in dynamic scenes is challenging due to concurrent object and camera
motion. In an online setting, this process is further aggravated because only
past frames are available. In this paper, we present a technique to produce
temporally consistent depth estimates in dynamic scenes in an online setting.
Our network augments current per-frame stereo networks with novel motion and
fusion networks. The motion network accounts for both object and camera motion
by predicting a per-pixel SE3 transformation. The fusion network improves
consistency in prediction by aggregating the current and previous predictions
with regressed weights. We conduct extensive experiments across varied datasets
(synthetic, outdoor, indoor and medical). In both zero-shot generalization and
domain fine-tuning, we demonstrate that our proposed approach outperforms
competing methods in terms of temporal stability and per-frame accuracy, both
quantitatively and qualitatively. Our code will be available online.
- Abstract(参考訳): 拡張現実のようなリアルタイムアプリケーションには、時間的に一貫した深さ推定が不可欠である。
ステレオ深度推定はフレーム単位での改善につながるかなりの注目を集めているが、フレーム間の時間的一貫性を維持することに注力する作業は比較的少ない。
実際、我々の分析によれば、現在のステレオ深度推定技術は依然として時間的一貫性に乏しい。
動的シーンでの時間的深さの安定化は、オブジェクトとカメラの動きを同時に行うため困難である。
オンライン環境では、過去のフレームのみが利用可能なため、このプロセスはさらに悪化する。
本稿では,オンライン環境における動的シーンにおける時間的一貫した深度推定手法を提案する。
我々のネットワークは、フレームごとの現在のステレオネットワークを新しい動きと融合ネットワークで拡張する。
モーションネットワークは、ピクセル単位のse3変換を予測して、オブジェクトとカメラの両方の動作を記述する。
融合ネットワークは、現在の予測と過去の予測を回帰重みで集約することで予測の一貫性を向上させる。
様々なデータセット(合成、屋外、屋内、医療)にまたがる広範な実験を行う。
ゼロショット一般化とドメイン微調整の両方において,提案手法は時間的安定性とフレーム単位の精度において,定量的かつ定性的に競合する手法より優れていることを示す。
私たちのコードはオンラインで入手できる。
関連論文リスト
- Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better [61.381599921020175]
時間的一貫性は、出力が一貫性があり、アーティファクトがないことを保証するために、ビデオ予測において重要である。
時間的注意や3D畳み込みといった伝統的な手法は、重要な物体の動きに苦しむことがある。
本稿では,ポイントトラックを用いた動き情報を明示的に統合する新しいアーキテクチャコンポーネントであるトラックキート・レイヤを提案する。
論文 参考訳(メタデータ) (2025-03-25T17:58:48Z) - Alignment-free HDR Deghosting with Semantics Consistent Transformer [76.91669741684173]
高ダイナミックレンジイメージングは、複数の低ダイナミックレンジ入力から情報を取得し、リアルな出力を生成することを目的としている。
既存の手法では、前景やカメラの動きによって引き起こされる入力フレーム間の空間的ずれに焦点を当てることが多い。
本研究では,SCTNet(Semantics Consistent Transformer)を用いたアライメントフリーネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:03:23Z) - DynamicStereo: Consistent Dynamic Depth from Stereo Videos [91.1804971397608]
ステレオビデオの相違を推定するためにDynamicStereoを提案する。
ネットワークは、その予測の時間的一貫性を改善するために、隣接するフレームからの情報をプールすることを学ぶ。
スキャンされた環境における人や動物の合成ビデオを含む新しいベンチマークデータセットであるDynamic Replicaも導入した。
論文 参考訳(メタデータ) (2023-05-03T17:40:49Z) - Temporally Consistent Online Depth Estimation Using Point-Based Fusion [6.5514240555359455]
ビデオストリームの時間的一貫した深度マップをオンライン環境で推定することを目的としている。
これは、将来のフレームが利用できないため難しい問題であり、メソッドは、一貫性を強制するか、以前の推定からエラーを修正するかを選択する必要がある。
本稿では、各フレームを動的に更新するグローバルポイントクラウドと、画像空間における学習的融合アプローチを用いて、これらの課題に対処することを提案する。
論文 参考訳(メタデータ) (2023-04-15T00:04:18Z) - Multi-view reconstruction of bullet time effect based on improved NSFF
model [2.5698815501864924]
ブレットタイム(英: Bullet Time)は、映画、テレビ、ゲームで一般的に使用される視覚効果の一種である。
本稿では,映画やテレビの特殊効果シーンを新たな視点から再構築した。
論文 参考訳(メタデータ) (2023-04-01T14:58:00Z) - Dyna-DepthFormer: Multi-frame Transformer for Self-Supervised Depth
Estimation in Dynamic Scenes [19.810725397641406]
シーン深度と3次元運動場を協調的に予測する新しいDyna-Depthformerフレームワークを提案する。
まず,多視点の相関を一連の自己・横断的層を通じて活用し,深度特徴表現の強化を図る。
第2に,動的物体の運動場をセマンティック・プレセプションを使わずに推定するワーピングに基づく運動ネットワークを提案する。
論文 参考訳(メタデータ) (2023-01-14T09:43:23Z) - Minimum Latency Deep Online Video Stabilization [77.68990069996939]
本稿では,オンラインビデオ安定化作業のための新しいカメラパス最適化フレームワークを提案する。
本研究では,近年の市販の高品位深度モーションモデルを用いて動き推定を行い,カメラの軌道を復元する。
我々の手法は、定性的にも量的にも最先端のオンライン手法を大きく上回っている。
論文 参考訳(メタデータ) (2022-12-05T07:37:32Z) - Less is More: Consistent Video Depth Estimation with Masked Frames
Modeling [41.177591332503255]
時間的一貫性はビデオ深度推定の鍵となる課題である。
隣接するフレームからマスクフレームの深さを予測するフレームマスキングネットワーク(FMNet)を提案する。
先行技術と比較して,提案手法は空間的精度と時間的整合性に比較して,付加的な情報を持たずに達成できることが実験的に証明された。
論文 参考訳(メタデータ) (2022-07-31T07:11:20Z) - Real-time Object Detection for Streaming Perception [84.2559631820007]
ストリーミング知覚は,ビデオオンライン知覚の1つの指標として,レイテンシと精度を共同評価するために提案される。
ストリーミング知覚のためのシンプルで効果的なフレームワークを構築します。
提案手法はArgoverse-HDデータセット上での競合性能を実現し,強力なベースラインに比べてAPを4.9%向上させる。
論文 参考訳(メタデータ) (2022-03-23T11:33:27Z) - Consistency Guided Scene Flow Estimation [159.24395181068218]
CGSFは立体映像からの3次元シーン構造と動きの同時再構成のための自己教師型フレームワークである。
提案モデルでは,課題の画像の相違やシーンフローを確実に予測できることを示す。
最先端技術よりも優れた一般化を実現し、目に見えない領域に迅速かつ堅牢に適応する。
論文 参考訳(メタデータ) (2020-06-19T17:28:07Z) - Towards Streaming Perception [70.68520310095155]
本稿では、リアルタイムオンライン知覚のための単一のメトリクスにレイテンシと精度を協調的に統合するアプローチを提案する。
この指標の背後にある重要な洞察は、瞬間ごとに認識スタック全体の出力を共同で評価することである。
本稿では,都市ビデオストリームにおけるオブジェクト検出とインスタンスセグメンテーションの具体的タスクに注目し,高品質で時間依存的なアノテーションを備えた新しいデータセットを寄贈する。
論文 参考訳(メタデータ) (2020-05-21T01:51:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。