論文の概要: Do End-to-end Stereo Algorithms Under-utilize Information?
- arxiv url: http://arxiv.org/abs/2010.07350v1
- Date: Wed, 14 Oct 2020 18:32:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 13:45:30.364254
- Title: Do End-to-end Stereo Algorithms Under-utilize Information?
- Title(参考訳): エンド・ツー・エンドのステレオアルゴリズムは情報を活用するか?
- Authors: Changjiang Cai, Philippos Mordohai
- Abstract要約: 本稿では,2次元および3次元の畳み込みネットワークに適応フィルタリングと半グローバルアグリゲーションを組み込むことによって,エンドツーエンドのステレオマッチングを実現する方法を示す。
改善は、画像からのRGB情報を信号として利用し、マッチングプロセスを動的にガイドすることによる。
- 参考スコア(独自算出の注目度): 7.538482310185133
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep networks for stereo matching typically leverage 2D or 3D convolutional
encoder-decoder architectures to aggregate cost and regularize the cost volume
for accurate disparity estimation. Due to content-insensitive convolutions and
down-sampling and up-sampling operations, these cost aggregation mechanisms do
not take full advantage of the information available in the images. Disparity
maps suffer from over-smoothing near occlusion boundaries, and erroneous
predictions in thin structures. In this paper, we show how deep adaptive
filtering and differentiable semi-global aggregation can be integrated in
existing 2D and 3D convolutional networks for end-to-end stereo matching,
leading to improved accuracy. The improvements are due to utilizing RGB
information from the images as a signal to dynamically guide the matching
process, in addition to being the signal we attempt to match across the images.
We show extensive experimental results on the KITTI 2015 and Virtual KITTI 2
datasets comparing four stereo networks (DispNetC, GCNet, PSMNet and GANet)
after integrating four adaptive filters (segmentation-aware bilateral
filtering, dynamic filtering networks, pixel adaptive convolution and
semi-global aggregation) into their architectures. Our code is available at
https://github.com/ccj5351/DAFStereoNets.
- Abstract(参考訳): ステレオマッチングのためのディープネットワークは、通常2Dまたは3D畳み込みエンコーダデコーダアーキテクチャを利用してコストを集約し、コストボリュームを正当に調整する。
コンテンツに敏感な畳み込みとダウンサンプリングとアップサンプリング操作のため、これらのコスト集約メカニズムは画像で利用可能な情報を十分に活用することができない。
偏差写像は、咬合境界付近での過剰な運動と、薄い構造における誤った予測に苦しむ。
本稿では, 従来の2次元および3次元畳み込みネットワークにおいて, 深層適応フィルタと差別化可能な半グローバルアグリゲーションがどのように統合され, 精度が向上するかを示す。
この改良は、画像からRGB情報を信号として利用して、マッチングプロセスを動的にガイドするだけでなく、画像間でマッチングしようとする信号も利用している。
4つのステレオネットワーク(DispNetC, GCNet, PSMNet, GANet)を比較したKITTI 2015およびVirtual KITTI 2データセットについて, 動的フィルタリングネットワーク, ピクセル適応畳み込み, 半グローバルアグリゲーション)をアーキテクチャに組み込んだ実験結果を示した。
私たちのコードはhttps://github.com/ccj5351/DAFStereoNetsで利用可能です。
関連論文リスト
- Double-Shot 3D Shape Measurement with a Dual-Branch Network [14.749887303860717]
我々は、異なる構造光(SL)変調を処理するために、デュアルブランチ畳み込みニューラルネットワーク(CNN)-トランスフォーマーネットワーク(PDCNet)を提案する。
PDCNet内では、Transformerブランチを使用してフリンジイメージのグローバルな認識をキャプチャし、CNNブランチはスペックルイメージのローカル詳細を収集するように設計されている。
提案手法は, 自己生成データセット上で高精度な結果が得られる一方で, フランジオーダーの曖昧さを低減できることを示す。
論文 参考訳(メタデータ) (2024-07-19T10:49:26Z) - TransXNet: Learning Both Global and Local Dynamics with a Dual Dynamic
Token Mixer for Visual Recognition [71.6546914957701]
本稿では,グローバルな情報と局所的な詳細を入力依存の方法で集約する軽量なDual Dynamic Token Mixer (D-Mixer)を提案する。
我々は、新しいハイブリッドCNN-TransformerビジョンバックボーンネットワークであるTransXNetを設計するために、基本的なビルディングブロックとしてD-Mixerを使用している。
ImageNet-1Kの画像分類タスクでは、TransXNet-TはSwing-Tを0.3%上回り、計算コストの半分以下である。
論文 参考訳(メタデータ) (2023-10-30T09:35:56Z) - FCDSN-DC: An Accurate and Lightweight Convolutional Neural Network for
Stereo Estimation with Depth Completion [14.876446067338406]
本研究では,立体推定のための高精度で軽量な畳み込みニューラルネットワークを提案する。
FCDSN-DCを用いた完全畳み込み変形可能な類似性ネットワーク(FCDSN-DC)と命名する。
実世界の屋内・屋外のシーン,特にミドルベリー,キッティ,ETH3Dにおいて,競争力のある結果が得られた場合の課題について検討した。
論文 参考訳(メタデータ) (2022-09-14T09:56:19Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z) - AA-RMVSNet: Adaptive Aggregation Recurrent Multi-view Stereo Network [8.127449025802436]
本稿では,AA-RMVSNetというアダプティブアグリゲーションを備えた長短期記憶(LSTM)に基づく,新しいマルチビューステレオネットワークを提案する。
まず、コンテキスト認識の畳み込みとマルチスケールアグリゲーションを用いて、画像の特徴を適応的に抽出するビュー内アグリゲーションモジュールを提案する。
本稿では,すべてのビューにおいて,より整合性のあるペアを保存可能な,適応的なピクセルワイドビューアグリゲーションのためのビュー間コストボリュームアグリゲーションモジュールを提案する。
論文 参考訳(メタデータ) (2021-08-09T06:10:48Z) - MFGNet: Dynamic Modality-Aware Filter Generation for RGB-T Tracking [72.65494220685525]
可視データと熱データ間のメッセージ通信を促進するために,新しい動的モダリティ対応フィルタ生成モジュール(MFGNet)を提案する。
我々は、2つの独立ネットワークを持つ動的モダリティ対応フィルタを生成し、その可視フィルタとサーマルフィルタをそれぞれ、対応する入力特徴写像上で動的畳み込み演算を行う。
重閉塞,高速移動,外見による問題に対処するため,新たな方向認識型目標誘導型アテンション機構を活用することで,共同で局所的・グローバル検索を行うことを提案する。
論文 参考訳(メタデータ) (2021-07-22T03:10:51Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z) - SMD-Nets: Stereo Mixture Density Networks [68.56947049719936]
SMD-Nets(Stereo Mixture Density Networks)は、幅広い2Dおよび3Dアーキテクチャに対応したシンプルで効果的な学習フレームワークです。
具体的には,バイモーダル混合密度を出力表現として活用し,不連続近傍の鋭く正確な不一致推定を可能にすることを示す。
我々は8Mpx解像度のステレオペアと現実世界のステレオデータセットからなる、新しい高解像度でリアルな合成ステレオデータセットに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2021-04-08T16:15:46Z) - Adaptive Deconvolution-based stereo matching Net for Local Stereo
Matching [11.214543038438055]
ディープラーニングベースのローカルステレオマッチング手法では、大きなイメージパッチはステレオマッチング精度が向上する。
アダプティブ・デコンボリューション(Adaptive Deconvolution-based disparity)マッチングネット(ADSMnet)という効率的なCNNベースの構造を提案する。
KITTI 2012 と 2015 のデータセットに対する実験結果から,提案手法が精度と複雑性のトレードオフを良好に達成できることが示されている。
論文 参考訳(メタデータ) (2021-01-01T12:18:53Z) - Content-Aware Inter-Scale Cost Aggregation for Stereo Matching [42.02981855948903]
本手法は,異なるスケールで情報収集を行う際に,信頼性の高い詳細回復を実現する。
3次元フィルタ重みを効率的に構築し、3次元コスト容積を集約する新しい分解戦略を提案する。
Scene Flow データセット,KITTI2015 と Middlebury の実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2020-06-05T02:38:34Z) - ZoomNet: Part-Aware Adaptive Zooming Neural Network for 3D Object
Detection [69.68263074432224]
ステレオ画像に基づく3D検出のためのZoomNetという新しいフレームワークを提案する。
ZoomNetのパイプラインは、通常の2Dオブジェクト検出モデルから始まり、左右のバウンディングボックスのペアを取得するために使用される。
さらに,RGB画像のテクスチャキューを多用し,より正確な異質度推定を行うため,適応ズームという概念的に真直ぐなモジュールを導入する。
論文 参考訳(メタデータ) (2020-03-01T17:18:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。