論文の概要: RobustMat: Neural Diffusion for Street Landmark Patch Matching under
Challenging Environments
- arxiv url: http://arxiv.org/abs/2311.03904v1
- Date: Tue, 7 Nov 2023 11:37:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 15:46:38.512429
- Title: RobustMat: Neural Diffusion for Street Landmark Patch Matching under
Challenging Environments
- Title(参考訳): RobustMat: 混在環境下での街路ランドマークパッチマッチングのためのニューラルネットワーク拡散
- Authors: Rui She, Qiyu Kang, Sijie Wang, Yuan-Rui Yang, Kai Zhao, Yang Song and
Wee Peng Tay
- Abstract要約: オンボードカメラが撮影したランドマークのパッチと、別の時間に撮影した他のランドマークのパッチとを一致させたり、ストリートシーンの画像データベースに保存したりするのに役立ちます。
我々は、ニューラルネットワークの微分方程式から摂動に頑健性をもたらすRobustMatというアプローチを提案する。
提案手法は,複数の街路景観データセットを用いて評価し,環境変動下での最先端のマッチング結果を実現することを実証した。
- 参考スコア(独自算出の注目度): 26.423254820086296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For autonomous vehicles (AVs), visual perception techniques based on sensors
like cameras play crucial roles in information acquisition and processing. In
various computer perception tasks for AVs, it may be helpful to match landmark
patches taken by an onboard camera with other landmark patches captured at a
different time or saved in a street scene image database. To perform matching
under challenging driving environments caused by changing seasons, weather, and
illumination, we utilize the spatial neighborhood information of each patch. We
propose an approach, named RobustMat, which derives its robustness to
perturbations from neural differential equations. A convolutional neural ODE
diffusion module is used to learn the feature representation for the landmark
patches. A graph neural PDE diffusion module then aggregates information from
neighboring landmark patches in the street scene. Finally, feature similarity
learning outputs the final matching score. Our approach is evaluated on several
street scene datasets and demonstrated to achieve state-of-the-art matching
results under environmental perturbations.
- Abstract(参考訳): 自動運転車(AV)では、カメラのようなセンサーに基づく視覚認識技術が情報取得と処理において重要な役割を果たす。
avsの様々なコンピュータ知覚タスクでは、オンボードカメラが撮影したランドマークパッチと他のランドマークパッチを異なる時間に撮影したり、ストリートシーン画像データベースに保存したりするのに役立ちます。
季節・天気・照明の変化による困難な運転環境下でマッチングを行うため,各パッチの空間的近傍情報を利用する。
神経微分方程式からの摂動に対するロバスト性を示すロバストマットという手法を提案する。
畳み込み型ニューラルネットワークode拡散モジュールを使用して、ランドマークパッチの特徴表現を学習する。
グラフニューラルネットワークPDE拡散モジュールは、ストリートシーン内の隣接するランドマークパッチから情報を集約する。
最後に、特徴類似性学習は最終一致スコアを出力する。
提案手法は,複数の街路景観データセットを用いて評価し,環境変動下での最先端のマッチング結果を実証した。
関連論文リスト
- Redundancy-Aware Camera Selection for Indoor Scene Neural Rendering [54.468355408388675]
カメラの空間的多様性と画像の意味的変動の両方を取り入れた類似度行列を構築した。
カメラ選択を最適化するために,多様性に基づくサンプリングアルゴリズムを適用した。
IndoorTrajという新しいデータセットも開発しています。仮想屋内環境で人間が捉えた、長くて複雑なカメラの動きが含まれています。
論文 参考訳(メタデータ) (2024-09-11T08:36:49Z) - TK-Planes: Tiered K-Planes with High Dimensional Feature Vectors for Dynamic UAV-based Scenes [58.180556221044235]
本研究では,無人航空機(UAV)の認識における合成データと実世界データとの領域ギャップを埋める新しい手法を提案する。
私たちの定式化は、小さな動く物体や人間の行動からなる動的なシーンのために設計されています。
我々は,Okutama ActionやUG2など,挑戦的なデータセットの性能を評価する。
論文 参考訳(メタデータ) (2024-05-04T21:55:33Z) - MoST: Multi-modality Scene Tokenization for Motion Prediction [39.97334929667033]
本稿では,視覚世界をシーン要素のコンパクトな集合にトークン化することを提案する。
次に、トレーニング済みの画像基盤モデルとLiDARニューラルネットワークを利用して、すべてのシーン要素をオープン語彙的にエンコードする。
提案した表現は,数百のトークンで多フレーム多モード観測を効率的に符号化することができる。
論文 参考訳(メタデータ) (2024-04-30T13:09:41Z) - Image Patch-Matching with Graph-Based Learning in Street Scenes [31.27416414119136]
本稿では,グラフに基づく学習を併用した特徴量学習モデルと距離学習モデルを提案する。
いくつかのストリートシーンデータセットを用いてモデルを評価し,提案手法が最先端のマッチング結果を実現することを示す。
論文 参考訳(メタデータ) (2023-11-08T11:35:43Z) - Estimation of Appearance and Occupancy Information in Birds Eye View
from Surround Monocular Images [2.69840007334476]
Birds-eye View (BEV)は、トップダウンビューから、エゴ車両フレーム内の異なる交通参加者の位置を表す。
360デグ視野(FOV)をカバーするモノクラーカメラのアレイから、様々な交通参加者の外観や占有情報をキャプチャする新しい表現を提案する。
我々は、すべてのカメラ画像の学習画像埋め込みを使用して、シーンの外観と占有度の両方をキャプチャする瞬間に、シーンのBEVを生成する。
論文 参考訳(メタデータ) (2022-11-08T20:57:56Z) - iSDF: Real-Time Neural Signed Distance Fields for Robot Perception [64.80458128766254]
iSDFは実時間符号付き距離場再構成のための連続学習システムである。
より正確な再構築と、衝突コストと勾配のより良い近似を生成する。
論文 参考訳(メタデータ) (2022-04-05T15:48:39Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - DeepI2P: Image-to-Point Cloud Registration via Deep Classification [71.3121124994105]
DeepI2Pは、イメージとポイントクラウドの間のクロスモダリティ登録のための新しいアプローチです。
本手法は,カメラとライダーの座標フレーム間の相対的剛性変換を推定する。
登録問題を分類および逆カメラ投影最適化問題に変換することで難易度を回避する。
論文 参考訳(メタデータ) (2021-04-08T04:27:32Z) - A Flow Base Bi-path Network for Cross-scene Video Crowd Understanding in
Aerial View [93.23947591795897]
本稿では,これらの課題に対処し,ドローンから収集した視覚的データから参加者を自動的に理解する。
クロスシーンテストで発生する背景雑音を軽減するために, 二重ストリーム群カウントモデルを提案する。
極暗環境下での集団密度推定問題に対処するために,ゲームグランドセフトオートV(GTAV)によって生成された合成データを導入する。
論文 参考訳(メタデータ) (2020-09-29T01:48:24Z) - Semantic sensor fusion: from camera to sparse lidar information [7.489722641968593]
本稿では,異なる感覚情報,光検出・ランキング(ライダー)スキャン,カメラ画像の融合手法を提案する。
ラベル付き画像とライダー点雲間の意味情報の転送を4ステップで行う。
論文 参考訳(メタデータ) (2020-03-04T03:09:33Z) - Towards Accurate Vehicle Behaviour Classification With Multi-Relational
Graph Convolutional Networks [22.022759283770377]
モノクロ画像やビデオから車両の挙動を理解するパイプラインを提案する。
このような符号化の時間シーケンスをリカレントネットワークに供給し、車両の挙動をラベル付けする。
提案するフレームワークは,多様なデータセットに対して,さまざまな車両動作を高い忠実度に分類することができる。
論文 参考訳(メタデータ) (2020-02-03T14:34:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。