論文の概要: TemporalStereo: Efficient Spatial-Temporal Stereo Matching Network
- arxiv url: http://arxiv.org/abs/2211.13755v2
- Date: Thu, 3 Aug 2023 12:48:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-04 17:24:23.988440
- Title: TemporalStereo: Efficient Spatial-Temporal Stereo Matching Network
- Title(参考訳): temporalstereo:効率的な空間-時間ステレオマッチングネットワーク
- Authors: Youmin Zhang, Matteo Poggi, Stefano Mattoccia
- Abstract要約: 本稿では,粗大なステレオマッチングネットワークであるTemporalStereoを紹介する。
過去の幾何学や文脈情報を効果的に活用し、マッチング精度を高めることができる。
我々のモデルは任意のデータセット上で最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 39.9247687476953
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present TemporalStereo, a coarse-to-fine stereo matching network that is
highly efficient, and able to effectively exploit the past geometry and context
information to boost matching accuracy. Our network leverages sparse cost
volume and proves to be effective when a single stereo pair is given. However,
its peculiar ability to use spatio-temporal information across stereo sequences
allows TemporalStereo to alleviate problems such as occlusions and reflective
regions while enjoying high efficiency also in this latter case. Notably, our
model -- trained once with stereo videos -- can run in both single-pair and
temporal modes seamlessly. Experiments show that our network relying on camera
motion is robust even to dynamic objects when running on videos. We validate
TemporalStereo through extensive experiments on synthetic (SceneFlow,
TartanAir) and real (KITTI 2012, KITTI 2015) datasets. Our model achieves
state-of-the-art performance on any of these datasets. Code is available at
\url{https://github.com/youmi-zym/TemporalStereo.git}.
- Abstract(参考訳): 本稿では,高効率で,過去の幾何情報や文脈情報を効果的に活用し,マッチング精度を向上させることのできる,粗粒度対細ステレオマッチングネットワークであるtemporstereoを提案する。
我々のネットワークは、少ないコストのボリュームを活用し、1つのステレオペアが与えられると効果的であることが証明される。
しかし,ステレオ列にまたがる時空間情報を利用する特異な能力は,この場合においても高い効率を享受しながら,咬合や反射領域などの問題を軽減できる。
特に、ステレオビデオでトレーニングされた私たちのモデルは、単一ペアモードと時間モードの両方でシームレスに実行できる。
実験の結果,ビデオ実行時の動的物体に対しても,カメラ動作に依存するネットワークは頑健であることが判明した。
我々は、合成(SceneFlow, TartanAir)および実(KITTI 2012, KITTI 2015)データセットに関する広範な実験を通じて、TemporalStereoを検証する。
我々のモデルは、これらのデータセットのどれでも最先端のパフォーマンスを達成する。
コードは \url{https://github.com/youmi-zym/temporalstereo.git} で入手できる。
関連論文リスト
- Match Stereo Videos via Bidirectional Alignment [15.876953256378224]
最近の学習に基づく手法は、独立ステレオペアのパフォーマンスの最適化に重点を置いており、ビデオの時間的矛盾につながる。
本稿では,新しいビデオ処理フレームワークBiDAStereoとプラグイン安定化ネットワークBiDAStabilizerを紹介する。
本稿では,自然景観に着目したリアルな合成データセットとベンチマークと,様々な都市景観のステレオカメラが捉えた実世界のデータセットを定性評価として提示する。
論文 参考訳(メタデータ) (2024-09-30T13:37:29Z) - Temporal Event Stereo via Joint Learning with Stereoscopic Flow [44.479946706395694]
イベントカメラは生体網膜にインスパイアされた動的視覚センサーである。
本稿では,新しい時間的イベントステレオフレームワークを提案する。
我々はMVSECとDSECデータセットで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-07-15T15:43:08Z) - Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - Match-Stereo-Videos: Bidirectional Alignment for Consistent Dynamic Stereo Matching [17.344430840048094]
最近の学習に基づく手法では, 一つのステレオペア上での最適性能が優先され, 時間的矛盾が生じている。
本研究では,隣接フレームの双方向アライメント機構を基本動作として開発する。
既存の手法とは異なり、我々はこのタスクを局所的なマッチングとグローバルアグリゲーションとしてモデル化する。
論文 参考訳(メタデータ) (2024-03-16T01:38:28Z) - Disentangling Spatial and Temporal Learning for Efficient Image-to-Video
Transfer Learning [59.26623999209235]
ビデオの空間的側面と時間的側面の学習を両立させるDiSTを提案する。
DiSTの非絡み合い学習は、大量の事前学習パラメータのバックプロパゲーションを避けるため、非常に効率的である。
5つのベンチマークの大規模な実験は、DiSTが既存の最先端メソッドよりも優れたパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2023-09-14T17:58:33Z) - DynamicStereo: Consistent Dynamic Depth from Stereo Videos [91.1804971397608]
ステレオビデオの相違を推定するためにDynamicStereoを提案する。
ネットワークは、その予測の時間的一貫性を改善するために、隣接するフレームからの情報をプールすることを学ぶ。
スキャンされた環境における人や動物の合成ビデオを含む新しいベンチマークデータセットであるDynamic Replicaも導入した。
論文 参考訳(メタデータ) (2023-05-03T17:40:49Z) - StereoVoxelNet: Real-Time Obstacle Detection Based on Occupancy Voxels
from a Stereo Camera Using Deep Neural Networks [32.7826524859756]
障害物検出は、ステレオマッチングが一般的な視覚ベースのアプローチであるロボットナビゲーションにおいて、安全に重要な問題である。
本稿では,ステレオ画像の占有率を直接検出するために,ディープニューラルネットワークを利用する計算効率のよい手法を提案する。
提案手法は,32mの範囲の障害物を正確に検出し,最新ステレオモデルの計算コストのわずか2%に留まらず,IoU (Intersection over Union) とCD (Chamfer Distance) のスコアが向上する。
論文 参考訳(メタデータ) (2022-09-18T03:32:38Z) - AdaFuse: Adaptive Temporal Fusion Network for Efficient Action
Recognition [68.70214388982545]
テンポラルモデリングは、効率的なビデオアクション認識の鍵である。
我々はAdaFuseと呼ばれる適応時間融合ネットワークを導入し、現在の特徴マップと過去の特徴マップからチャネルを融合する。
我々の手法は、最先端の手法に匹敵する精度で、約40%の計算節約を達成できる。
論文 参考訳(メタデータ) (2021-02-10T23:31:02Z) - DS-Net: Dynamic Spatiotemporal Network for Video Salient Object
Detection [78.04869214450963]
時間情報と空間情報のより効果的な融合のための新しい動的時空間ネットワーク(DSNet)を提案する。
提案手法は最先端アルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-12-09T06:42:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。