論文の概要: A Lightweight Target-Driven Network of Stereo Matching for Inland Waterways
- arxiv url: http://arxiv.org/abs/2410.07915v1
- Date: Thu, 10 Oct 2024 13:40:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 14:06:15.969884
- Title: A Lightweight Target-Driven Network of Stereo Matching for Inland Waterways
- Title(参考訳): 内陸水路におけるステレオマッチングの軽量目標ネットワーク
- Authors: Jing Su, Yiqing Zhou, Yu Zhang, Chao Wang, Yi Wei,
- Abstract要約: LTNetは軽量なターゲット駆動型ステレオマッチングニューラルネットワークである。
2つのデータセットの実験では、LTNetはわずか3.7Mのパラメータで競合する結果が得られる。
- 参考スコア(独自算出の注目度): 24.432957277833562
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stereo matching for inland waterways is one of the key technologies for the autonomous navigation of Unmanned Surface Vehicles (USVs), which involves dividing the stereo images into reference images and target images for pixel-level matching. However, due to the challenges of the inland waterway environment, such as blurred textures, large spatial scales, and computational resource constraints of the USVs platform, the participation of geometric features from the target image is required for efficient target-driven matching. Based on this target-driven concept, we propose a lightweight target-driven stereo matching neural network, named LTNet. Specifically, a lightweight and efficient 4D cost volume, named the Geometry Target Volume (GTV), is designed to fully utilize the geometric information of target features by employing the shifted target features as the filtered feature volume. Subsequently, to address the substantial texture interference and object occlusions present in the waterway environment, a Left-Right Consistency Refinement (LRR) module is proposed. The \text{LRR} utilizes the pixel-level differences in left and right disparities to introduce soft constraints, thereby enhancing the accuracy of predictions during the intermediate stages of the network. Moreover, knowledge distillation is utilized to enhance the generalization capability of lightweight models on the USVInland dataset. Furthermore, a new large-scale benchmark, named Spring, is utilized to validate the applicability of LTNet across various scenarios. In experiments on the aforementioned two datasets, LTNet achieves competitive results, with only 3.7M parameters. The code is available at https://github.com/Open-YiQingZhou/LTNet .
- Abstract(参考訳): 水中でのステレオマッチングは、ステレオ画像を基準画像と画素レベルのマッチングのためのターゲット画像に分割することを含む、無人表面車両(USV)の自律ナビゲーションの鍵となる技術の一つである。
しかし, 対象画像からの幾何的特徴の関与は, 対象画像とのマッチングの効率化に必要である。
この目標駆動型概念に基づいて,LTNetという,軽量な目標駆動型ステレオマッチングニューラルネットワークを提案する。
具体的には,Geometry Target Volume (GTV) と呼ばれる軽量で効率的な4Dコストボリュームを,シフトしたターゲット特徴量をフィルタされた特徴量として利用することにより,ターゲット特徴の幾何学的情報を完全に活用するように設計されている。
その後, 水路環境におけるテクスチャ干渉や物体の閉塞に対処するため, LRRモジュールを提案する。
テキスト{LRR} は、左右の差のピクセルレベルの差を利用してソフト制約を導入し、ネットワークの中間段階における予測の精度を高める。
さらに,USVInlandデータセット上での軽量モデルの一般化能力を高めるために,知識蒸留を利用する。
さらに、さまざまなシナリオでLTNetの適用性を検証するために、Springという名の新しい大規模ベンチマークが使用されている。
前述の2つのデータセットの実験では、LTNetはわずか3.7Mのパラメータで競合する結果を得た。
コードはhttps://github.com/Open-YiQingZhou/LTNetで公開されている。
関連論文リスト
- UL-VIO: Ultra-lightweight Visual-Inertial Odometry with Noise Robust Test-time Adaptation [12.511829774226113]
視覚-慣性整合性に基づくテスト時間適応(TTA)が可能な超軽量 (1M) 視覚慣性オドメトリー (VIO) ネットワークを提案する。
KITTIデータセットで1分間のエラー増加 – 1% – で、最先端のネットワークサイズよりも36倍小さなネットワークサイズを実現している。
論文 参考訳(メタデータ) (2024-09-19T22:24:14Z) - ELGC-Net: Efficient Local-Global Context Aggregation for Remote Sensing Change Detection [65.59969454655996]
本稿では,変化領域を正確に推定するために,リッチな文脈情報を利用する効率的な変化検出フレームワークELGC-Netを提案する。
提案するELGC-Netは、リモートセンシング変更検出ベンチマークにおいて、最先端の性能を新たに設定する。
また,ELGC-Net-LWも導入した。
論文 参考訳(メタデータ) (2024-03-26T17:46:25Z) - HEAL-SWIN: A Vision Transformer On The Sphere [4.379414115481346]
高解像度の広角魚眼画像は、自律運転などのロボティクス応用においてますます重要になっている。
天体物理学や宇宙論で用いられる高度に均一な階層的等角領域等緯線線格子を組み合わせたHEAL-SWIN変換器を提案する。
HEAL-SWINでは、HEALPixグリッドのネスト構造を用いてSWIN変換器のパッチ処理とウィンドウ処理を行い、最小計算オーバーヘッドで球面表現を処理できる。
論文 参考訳(メタデータ) (2023-07-14T12:46:59Z) - Progressive Meta-Pooling Learning for Lightweight Image Classification
Model [20.076610051602618]
本稿では,軽量ネットワークにおいて受容場を学習可能にするメタポーリングフレームワークを提案する。
本稿では,パラメータ化空間エンハンサーのためのPMPL(Progressive Meta-Pooling Learning)戦略を提案する。
ImageNetデータセットの結果、Meta-Poolingを使用したMobileNetV2は74.6%で、MobileNetV2の2.3%を上回っている。
論文 参考訳(メタデータ) (2023-01-24T14:28:05Z) - Lightweight Salient Object Detection in Optical Remote-Sensing Images
via Semantic Matching and Edge Alignment [61.45639694373033]
セマンティックマッチングとエッジアライメントに基づく光リモートセンシング画像(ORSI-SOD)のための新しい軽量ネットワークSeaNetを提案する。
具体的には、機能抽出のための軽量MobileNet-V2、高レベルの機能のための動的セマンティックマッチングモジュール(DSMM)、推論のためのポータブルデコーダが含まれる。
論文 参考訳(メタデータ) (2023-01-07T04:33:51Z) - Content-aware Warping for View Synthesis [110.54435867693203]
本稿では,比較的大きな近傍の画素の重みを,軽量ニューラルネットワークによる文脈情報から適応的に学習するコンテンツ認識ワープを提案する。
この学習可能なワープモジュールに基づいて、2つのソースビューから新しいビューを合成するエンド・ツー・エンドの学習ベースのフレームワークを提案する。
広いベースラインと非構造的多視点データセットを有する構造的光フィールドデータセットの実験結果から,提案手法は,定量的かつ視覚的に,最先端の手法を著しく上回ることを示した。
論文 参考訳(メタデータ) (2022-01-22T11:35:05Z) - Location-Sensitive Visual Recognition with Cross-IOU Loss [177.86369890708457]
本稿では,オブジェクト検出,インスタンスセグメンテーション,ポーズ推定のための位置感知ネットワーク (LSNet) という統合ソリューションを提案する。
ディープニューラルネットワークをバックボーンとして、LSNetは、ターゲットオブジェクトの形状を一緒に定義するアンカーポイントとランドマークのセットを予測します。
論文 参考訳(メタデータ) (2021-04-11T02:17:14Z) - PLADE-Net: Towards Pixel-Level Accuracy for Self-Supervised Single-View
Depth Estimation with Neural Positional Encoding and Distilled Matting Loss [49.66736599668501]
PLADE-Netと呼ばれる自己監視型単視点画素レベルの高精度深度推定ネットワークを提案する。
提案手法は,KITTIデータセットの$delta1$測定値の95%を超え,前例のない精度を示す。
論文 参考訳(メタデータ) (2021-03-12T15:54:46Z) - A Parallel Down-Up Fusion Network for Salient Object Detection in
Optical Remote Sensing Images [82.87122287748791]
光リモートセンシング画像(RSI)における有意な物体検出のための新しい並列ダウンアップフュージョンネットワーク(PDF-Net)を提案する。
In-pathの低レベル・高レベルな特徴とクロスパスの多解像度な特徴をフル活用して、多様なスケールのサルエントオブジェクトを識別し、散らかった背景を抑える。
ORSSDデータセットの実験により、提案したネットワークは定性的かつ定量的に最先端のアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-10-02T05:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。