論文の概要: CGI-Stereo: Accurate and Real-Time Stereo Matching via Context and
Geometry Interaction
- arxiv url: http://arxiv.org/abs/2301.02789v1
- Date: Sat, 7 Jan 2023 06:28:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-10 16:49:50.850216
- Title: CGI-Stereo: Accurate and Real-Time Stereo Matching via Context and
Geometry Interaction
- Title(参考訳): CGI-Stereo:コンテキストと幾何学的相互作用による正確なリアルタイムステレオマッチング
- Authors: Gangwei Xu, Huan Zhou, Xin Yang
- Abstract要約: CGI-Stereoは、リアルタイムパフォーマンス、最先端の精度、強力な一般化能力の同時実行が可能な、新しいニューラルネットワークアーキテクチャである。
CGI-Stereoの中核はContext and Geometry Fusionブロックであり、コンテキストと幾何学情報を適応的に融合する。
提案したCGFは、既存の多くのステレオマッチングネットワークに簡単に組み込むことができる。
- 参考スコア(独自算出の注目度): 8.484952030063114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose CGI-Stereo, a novel neural network architecture
that can concurrently achieve real-time performance, state-of-the-art accuracy,
and strong generalization ability. The core of our CGI-Stereo is a Context and
Geometry Fusion (CGF) block which adaptively fuses context and geometry
information for more accurate and efficient cost aggregation and meanwhile
provides feedback to feature learning to guide more effective contextual
feature extraction. The proposed CGF can be easily embedded into many existing
stereo matching networks, such as PSMNet, GwcNet and ACVNet. The resulting
networks are improved in accuracy by a large margin. Specially, the model which
integrates our CGF with ACVNet could rank 1st on the KITTI 2012 leaderboard
among all the published methods. We further propose an informative and concise
cost volume, named Attention Feature Volume (AFV), which exploits a correlation
volume as attention weights to filter a feature volume. Based on CGF and AFV,
the proposed CGI-Stereo outperforms all other published real-time methods on
KITTI benchmarks and shows better generalization ability than other real-time
methods. The code is available at https://github.com/gangweiX/CGI-Stereo.
- Abstract(参考訳): 本稿では,リアルタイム性能,最先端精度,強汎化能力を同時に達成できる新しいニューラルネットワークアーキテクチャであるcgi-stereoを提案する。
cgi-stereoの中核はcontext and geometry fusion(cgf)ブロックで、より正確で効率的なコストアグリゲーションのために、コンテキストと幾何情報を適応的に融合し、さらに、より効果的なコンテキスト特徴抽出を導くために、機能学習にフィードバックを提供します。
提案したCGFは, PSMNet, GwcNet, ACVNetなどの既存のステレオマッチングネットワークに容易に組み込むことができる。
結果として得られるネットワークは、大きなマージンで精度が向上する。
特に、我々のCGFとAVVNetを統合するモデルは、公表されたすべての方法の中で、KITTI 2012のリーダーボードで1位にランクインする可能性がある。
さらに,注意量として相関量を利用して特徴量のフィルタリングを行う,意図的かつ簡潔なコスト容積(AFV)を提案する。
CGFとAFVに基づいて、提案されたCGI-Stereoは、KITTIベンチマークで発表された他のすべてのリアルタイムメソッドよりも優れており、他のリアルタイムメソッドよりも優れた一般化能力を示している。
コードはhttps://github.com/gangweiX/CGI-Stereoで公開されている。
関連論文リスト
- GraFPrint: A GNN-Based Approach for Audio Identification [11.71702857714935]
GraFPrintは、グラフニューラルネットワーク(GNN)の構造学習機能を活用して、堅牢なオーディオ指紋を作成するオーディオ識別フレームワークである。
GraFPrintは、さまざまなレベルの粒度の大規模データセット上での優れたパフォーマンスを示し、軽量かつスケーラブルであることを証明している。
論文 参考訳(メタデータ) (2024-10-14T18:20:09Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - TC-SKNet with GridMask for Low-complexity Classification of Acoustic
scene [15.010375209235924]
我々は、Selective Kernel NetworkとTemporal-Convolution(TC-SKNet)を組み合わせて、畳み込みカーネルの受容場を調整する。
GridMaskは、生データや機能領域の一部をマスキングすることで、データ拡張戦略である。
その結果、ピーク精度59.87%のTC-SKNetはSOTAと同値であるが、パラメータは20.9Kのみである。
論文 参考訳(メタデータ) (2022-10-05T14:24:17Z) - Accurate and Efficient Stereo Matching via Attention Concatenation
Volume [33.615312186946866]
本稿では,注意結合ボリューム(ACV)という新しいコストボリューム構築手法を提案する。
ACVは相関手がかりから注目重みを生成し、余分な情報を抑制し、連結ボリュームにおけるマッチング関連情報を強化する。
ACVの高速バージョンであるFast-ACVを設計し、高い確率差の仮説を生成する。
論文 参考訳(メタデータ) (2022-09-23T08:14:30Z) - SVTS: Scalable Video-to-Speech Synthesis [105.29009019733803]
本稿では,ビデオ・トゥ・スペクトログラム予測器と事前学習したニューラルボコーダの2つのコンポーネントからなるスケーラブルなビデオ音声合成フレームワークを提案する。
私たちは、挑戦的なLSS3データセットで不可解な結果を示す最初の人です。
論文 参考訳(メタデータ) (2022-05-04T13:34:07Z) - SCGC : Self-Supervised Contrastive Graph Clustering [1.1470070927586016]
グラフクラスタリングはネットワーク内のグループやコミュニティを検出する。
オートエンコーダのような深層学習手法は、豊富な構造情報を組み込むことはできない。
自己監督型コントラストグラフクラスタリング(SCGC)を提案する。
論文 参考訳(メタデータ) (2022-04-27T01:38:46Z) - Group Contextualization for Video Recognition [80.3842253625557]
グループ文脈化(GC)は、2D-CNN(TSN)とTSMの性能を高める。
GCは4つの異なるコンテキストを並列に埋め込む。
グループコンテキスト化は、2D-CNN(例えばTSN)のパフォーマンスを最先端のビデオネットワークに匹敵するレベルまで向上させる。
論文 参考訳(メタデータ) (2022-03-18T01:49:40Z) - Compact Graph Structure Learning via Mutual Information Compression [79.225671302689]
グラフ構造学習(GSL)は、グラフニューラルネットワーク(GNN)のグラフ構造と学習パラメータを最適化する能力に大きな注目を集めている。
我々は、MI圧縮によるコンパクトGSLアーキテクチャ、CoGSLを提案する。
クリーンで攻撃的な条件下で複数のデータセットに対して広範な実験を行い、CoGSLの有効性とロバスト性を実証した。
論文 参考訳(メタデータ) (2022-01-14T16:22:33Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z) - Adaptive Visibility Graph Neural Network and It's Application in
Modulation Classification [2.3228726690478547]
本稿では,時系列を適応的にグラフにマッピングできる適応可視グラフ(AVG)アルゴリズムを提案する。
次に,無線通信分野において重要な課題である無線信号変調分類にAVGNetを採用する。
論文 参考訳(メタデータ) (2021-06-16T06:00:49Z) - Heuristic Semi-Supervised Learning for Graph Generation Inspired by
Electoral College [80.67842220664231]
本稿では,新たなノードやエッジを自動的に拡張して,高密度サブグラフ内のラベル類似性を向上する,新しい前処理手法であるElectoral College(ELCO)を提案する。
テストされたすべての設定において、我々の手法はベースモデルの平均スコアを4.7ポイントの広いマージンで引き上げるとともに、常に最先端のモデルよりも優れています。
論文 参考訳(メタデータ) (2020-06-10T14:48:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。