論文の概要: TemporalStereo: Efficient Spatial-Temporal Stereo Matching Network
- arxiv url: http://arxiv.org/abs/2211.13755v1
- Date: Thu, 24 Nov 2022 18:58:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 16:44:34.191211
- Title: TemporalStereo: Efficient Spatial-Temporal Stereo Matching Network
- Title(参考訳): temporalstereo:効率的な空間-時間ステレオマッチングネットワーク
- Authors: Youmin Zhang, Matteo Poggi, Stefano Mattoccia
- Abstract要約: 本稿では,粗大なオンラインステレオマッチングネットワークであるTemporalStereoを紹介する。
我々のネットワークはスパースボリュームを利用しており、単一のステレオペアが与えられると有効であることが証明されている。
我々のモデルは、一度ステレオビデオで訓練され、単一のペアと時間の両方でシームレスに実行できる。
- 参考スコア(独自算出の注目度): 39.9247687476953
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present TemporalStereo, a coarse-to-fine based online stereo matching
network which is highly efficient, and able to effectively exploit the past
geometry and context information to boost the matching accuracy. Our network
leverages sparse cost volume and proves to be effective when a single stereo
pair is given, however, its peculiar ability to use spatio-temporal information
across frames allows TemporalStereo to alleviate problems such as occlusions
and reflective regions while enjoying high efficiency also in the case of
stereo sequences. Notably our model trained, once with stereo videos, can run
in both single-pair and temporal ways seamlessly. Experiments show that our
network relying on camera motion is even robust to dynamic objects when running
on videos. We validate TemporalStereo through extensive experiments on
synthetic (SceneFlow, TartanAir) and real (KITTI 2012, KITTI 2015) datasets.
Detailed results show that our model achieves state-of-the-art performance on
any of these datasets. Code is available at
\url{https://github.com/youmi-zym/TemporalStereo.git}.
- Abstract(参考訳): そこで本稿では,高効率で,過去の形状情報や文脈情報を効果的に活用し,マッチング精度を高めることのできる,細粒度から細かなオンラインステレオマッチングネットワークであるtemporstereoを提案する。
しかし,このネットワークでは,一対のステレオペアが与えられた場合の有効性が証明されている。しかし,フレーム間で時空間情報を利用する特異な能力により,ステレオシーケンスにおいても高い効率を享受しながら,オクルージョンや反射領域などの問題を軽減できる。
特に、ステレオビデオでトレーニングされたモデルは、単一のペアと時間の両方でシームレスに実行できる。
実験によると、カメラの動きに依存するネットワークは、ビデオ上で走るときの動的オブジェクトに対してさらに堅牢である。
我々は、合成(SceneFlow, TartanAir)および実(KITTI 2012, KITTI 2015)データセットに関する広範な実験を通じて、TemporalStereoを検証する。
詳細な結果から,これらのデータセット上での最先端のパフォーマンスが得られた。
コードは \url{https://github.com/youmi-zym/temporalstereo.git} で入手できる。
関連論文リスト
- Match Stereo Videos via Bidirectional Alignment [15.876953256378224]
最近の学習に基づく手法は、独立ステレオペアのパフォーマンスの最適化に重点を置いており、ビデオの時間的矛盾につながる。
本稿では,新しいビデオ処理フレームワークBiDAStereoとプラグイン安定化ネットワークBiDAStabilizerを紹介する。
本稿では,自然景観に着目したリアルな合成データセットとベンチマークと,様々な都市景観のステレオカメラが捉えた実世界のデータセットを定性評価として提示する。
論文 参考訳(メタデータ) (2024-09-30T13:37:29Z) - Temporal Event Stereo via Joint Learning with Stereoscopic Flow [44.479946706395694]
イベントカメラは生体網膜にインスパイアされた動的視覚センサーである。
本稿では,新しい時間的イベントステレオフレームワークを提案する。
我々はMVSECとDSECデータセットで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-07-15T15:43:08Z) - Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - Match-Stereo-Videos: Bidirectional Alignment for Consistent Dynamic Stereo Matching [17.344430840048094]
最近の学習に基づく手法では, 一つのステレオペア上での最適性能が優先され, 時間的矛盾が生じている。
本研究では,隣接フレームの双方向アライメント機構を基本動作として開発する。
既存の手法とは異なり、我々はこのタスクを局所的なマッチングとグローバルアグリゲーションとしてモデル化する。
論文 参考訳(メタデータ) (2024-03-16T01:38:28Z) - Disentangling Spatial and Temporal Learning for Efficient Image-to-Video
Transfer Learning [59.26623999209235]
ビデオの空間的側面と時間的側面の学習を両立させるDiSTを提案する。
DiSTの非絡み合い学習は、大量の事前学習パラメータのバックプロパゲーションを避けるため、非常に効率的である。
5つのベンチマークの大規模な実験は、DiSTが既存の最先端メソッドよりも優れたパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2023-09-14T17:58:33Z) - DynamicStereo: Consistent Dynamic Depth from Stereo Videos [91.1804971397608]
ステレオビデオの相違を推定するためにDynamicStereoを提案する。
ネットワークは、その予測の時間的一貫性を改善するために、隣接するフレームからの情報をプールすることを学ぶ。
スキャンされた環境における人や動物の合成ビデオを含む新しいベンチマークデータセットであるDynamic Replicaも導入した。
論文 参考訳(メタデータ) (2023-05-03T17:40:49Z) - StereoVoxelNet: Real-Time Obstacle Detection Based on Occupancy Voxels
from a Stereo Camera Using Deep Neural Networks [32.7826524859756]
障害物検出は、ステレオマッチングが一般的な視覚ベースのアプローチであるロボットナビゲーションにおいて、安全に重要な問題である。
本稿では,ステレオ画像の占有率を直接検出するために,ディープニューラルネットワークを利用する計算効率のよい手法を提案する。
提案手法は,32mの範囲の障害物を正確に検出し,最新ステレオモデルの計算コストのわずか2%に留まらず,IoU (Intersection over Union) とCD (Chamfer Distance) のスコアが向上する。
論文 参考訳(メタデータ) (2022-09-18T03:32:38Z) - AdaFuse: Adaptive Temporal Fusion Network for Efficient Action
Recognition [68.70214388982545]
テンポラルモデリングは、効率的なビデオアクション認識の鍵である。
我々はAdaFuseと呼ばれる適応時間融合ネットワークを導入し、現在の特徴マップと過去の特徴マップからチャネルを融合する。
我々の手法は、最先端の手法に匹敵する精度で、約40%の計算節約を達成できる。
論文 参考訳(メタデータ) (2021-02-10T23:31:02Z) - DS-Net: Dynamic Spatiotemporal Network for Video Salient Object
Detection [78.04869214450963]
時間情報と空間情報のより効果的な融合のための新しい動的時空間ネットワーク(DSNet)を提案する。
提案手法は最先端アルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-12-09T06:42:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。