論文の概要: TemporalStereo: Efficient Spatial-Temporal Stereo Matching Network
- arxiv url: http://arxiv.org/abs/2211.13755v1
- Date: Thu, 24 Nov 2022 18:58:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 16:44:34.191211
- Title: TemporalStereo: Efficient Spatial-Temporal Stereo Matching Network
- Title(参考訳): temporalstereo:効率的な空間-時間ステレオマッチングネットワーク
- Authors: Youmin Zhang, Matteo Poggi, Stefano Mattoccia
- Abstract要約: 本稿では,粗大なオンラインステレオマッチングネットワークであるTemporalStereoを紹介する。
我々のネットワークはスパースボリュームを利用しており、単一のステレオペアが与えられると有効であることが証明されている。
我々のモデルは、一度ステレオビデオで訓練され、単一のペアと時間の両方でシームレスに実行できる。
- 参考スコア(独自算出の注目度): 39.9247687476953
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present TemporalStereo, a coarse-to-fine based online stereo matching
network which is highly efficient, and able to effectively exploit the past
geometry and context information to boost the matching accuracy. Our network
leverages sparse cost volume and proves to be effective when a single stereo
pair is given, however, its peculiar ability to use spatio-temporal information
across frames allows TemporalStereo to alleviate problems such as occlusions
and reflective regions while enjoying high efficiency also in the case of
stereo sequences. Notably our model trained, once with stereo videos, can run
in both single-pair and temporal ways seamlessly. Experiments show that our
network relying on camera motion is even robust to dynamic objects when running
on videos. We validate TemporalStereo through extensive experiments on
synthetic (SceneFlow, TartanAir) and real (KITTI 2012, KITTI 2015) datasets.
Detailed results show that our model achieves state-of-the-art performance on
any of these datasets. Code is available at
\url{https://github.com/youmi-zym/TemporalStereo.git}.
- Abstract(参考訳): そこで本稿では,高効率で,過去の形状情報や文脈情報を効果的に活用し,マッチング精度を高めることのできる,細粒度から細かなオンラインステレオマッチングネットワークであるtemporstereoを提案する。
しかし,このネットワークでは,一対のステレオペアが与えられた場合の有効性が証明されている。しかし,フレーム間で時空間情報を利用する特異な能力により,ステレオシーケンスにおいても高い効率を享受しながら,オクルージョンや反射領域などの問題を軽減できる。
特に、ステレオビデオでトレーニングされたモデルは、単一のペアと時間の両方でシームレスに実行できる。
実験によると、カメラの動きに依存するネットワークは、ビデオ上で走るときの動的オブジェクトに対してさらに堅牢である。
我々は、合成(SceneFlow, TartanAir)および実(KITTI 2012, KITTI 2015)データセットに関する広範な実験を通じて、TemporalStereoを検証する。
詳細な結果から,これらのデータセット上での最先端のパフォーマンスが得られた。
コードは \url{https://github.com/youmi-zym/temporalstereo.git} で入手できる。
関連論文リスト
- Disentangling Spatial and Temporal Learning for Efficient Image-to-Video
Transfer Learning [59.26623999209235]
ビデオの空間的側面と時間的側面の学習を両立させるDiSTを提案する。
DiSTの非絡み合い学習は、大量の事前学習パラメータのバックプロパゲーションを避けるため、非常に効率的である。
5つのベンチマークの大規模な実験は、DiSTが既存の最先端メソッドよりも優れたパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2023-09-14T17:58:33Z) - DynamicStereo: Consistent Dynamic Depth from Stereo Videos [91.1804971397608]
ステレオビデオの相違を推定するためにDynamicStereoを提案する。
ネットワークは、その予測の時間的一貫性を改善するために、隣接するフレームからの情報をプールすることを学ぶ。
スキャンされた環境における人や動物の合成ビデオを含む新しいベンチマークデータセットであるDynamic Replicaも導入した。
論文 参考訳(メタデータ) (2023-05-03T17:40:49Z) - StereoVoxelNet: Real-Time Obstacle Detection Based on Occupancy Voxels
from a Stereo Camera Using Deep Neural Networks [32.7826524859756]
障害物検出は、ステレオマッチングが一般的な視覚ベースのアプローチであるロボットナビゲーションにおいて、安全に重要な問題である。
本稿では,ステレオ画像の占有率を直接検出するために,ディープニューラルネットワークを利用する計算効率のよい手法を提案する。
提案手法は,32mの範囲の障害物を正確に検出し,最新ステレオモデルの計算コストのわずか2%に留まらず,IoU (Intersection over Union) とCD (Chamfer Distance) のスコアが向上する。
論文 参考訳(メタデータ) (2022-09-18T03:32:38Z) - Stereoscopic Universal Perturbations across Different Architectures and
Datasets [60.021985610201156]
本研究では,画像の逆摂動が不均一性推定タスクの深部ステレオマッチングネットワークに与える影響について検討する。
本稿では,データセット内の任意のステレオ画像対に追加されると,ステレオネットワークを騙すことのできる,単一の摂動セットを構築する方法を提案する。
我々の摂動は、最先端のステレオネットワークのD1エラーを1%から87%に増やすことができる。
論文 参考訳(メタデータ) (2021-12-12T02:11:31Z) - PVStereo: Pyramid Voting Module for End-to-End Self-Supervised Stereo
Matching [14.603116313499648]
本稿では,ピラミッド投票モジュール(PVM)と,OptStereoと呼ばれる新しいDCNNアーキテクチャからなる,堅牢で効果的な自己監督型ステレオマッチング手法を提案する。
具体的には、OptStereoは最初にマルチスケールのコストボリュームを構築し、その後、繰り返し単位を採用し、高分解能で不一致推定を反復的に更新します。
hkust-driveデータセット(大規模な合成ステレオデータセット)を、異なる照明条件と気象条件下で研究目的で収集した。
論文 参考訳(メタデータ) (2021-03-12T05:27:14Z) - AdaFuse: Adaptive Temporal Fusion Network for Efficient Action
Recognition [68.70214388982545]
テンポラルモデリングは、効率的なビデオアクション認識の鍵である。
我々はAdaFuseと呼ばれる適応時間融合ネットワークを導入し、現在の特徴マップと過去の特徴マップからチャネルを融合する。
我々の手法は、最先端の手法に匹敵する精度で、約40%の計算節約を達成できる。
論文 参考訳(メタデータ) (2021-02-10T23:31:02Z) - Downbeat Tracking with Tempo-Invariant Convolutional Neural Networks [0.0]
畳み込みニューラルネットワーク(CNN)において,この技術を実現するための決定論的時間ワープ演算を提案する。
トレーニングデータセットに存在するテンポでリズムパターンを学習する従来のディープラーニングアプローチとは異なり、我々のモデルで学んだパターンはテンポ不変である。
提案モデルの一般化の利点は、GTZANとBallroomのデータセットで示されているように、実際の音楽に拡張される。
論文 参考訳(メタデータ) (2021-02-03T20:25:36Z) - DS-Net: Dynamic Spatiotemporal Network for Video Salient Object
Detection [78.04869214450963]
時間情報と空間情報のより効果的な融合のための新しい動的時空間ネットワーク(DSNet)を提案する。
提案手法は最先端アルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-12-09T06:42:30Z) - Learning Stereo from Single Images [41.32821954097483]
教師付きディープネットワークはステレオ画像対の対応を見つける最良の方法の一つである。
地上の真理深度やそれに対応するステレオペアに高い依存度を持つことは不要である。
単眼深度推定の最近の進歩に触発されて、単眼画像から可塑性不均一マップを生成し、その欠陥不均一マップを慎重に設計したパイプラインに使用し、ステレオトレーニングペアを生成する。
論文 参考訳(メタデータ) (2020-08-04T12:22:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。