論文の概要: RCDPT: Radar-Camera fusion Dense Prediction Transformer
- arxiv url: http://arxiv.org/abs/2211.02432v1
- Date: Fri, 4 Nov 2022 13:16:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 17:20:28.171322
- Title: RCDPT: Radar-Camera fusion Dense Prediction Transformer
- Title(参考訳): RCDPT:レーダーカメラ融合線量予測変換器
- Authors: Chen-Chou Lo and Patrick Vandewalle
- Abstract要約: 本稿では,レーダデータを視覚トランスネットワークに統合するための新しい融合戦略を提案する。
リードアウトトークンを使用する代わりに、レーダー表現は単眼深度推定モデルに追加の深度情報を提供する。
実験は、カメラ画像、ライダー、レーダーデータを含むnuScenesデータセット上で実施されている。
- 参考スコア(独自算出の注目度): 1.5899159309486681
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, transformer networks have outperformed traditional deep neural
networks in natural language processing and show a large potential in many
computer vision tasks compared to convolutional backbones. In the original
transformer, readout tokens are used as designated vectors for aggregating
information from other tokens. However, the performance of using readout tokens
in a vision transformer is limited. Therefore, we propose a novel fusion
strategy to integrate radar data into a dense prediction transformer network by
reassembling camera representations with radar representations. Instead of
using readout tokens, radar representations contribute additional depth
information to a monocular depth estimation model and improve performance. We
further investigate different fusion approaches that are commonly used for
integrating additional modality in a dense prediction transformer network. The
experiments are conducted on the nuScenes dataset, which includes camera
images, lidar, and radar data. The results show that our proposed method yields
better performance than the commonly used fusion strategies and outperforms
existing convolutional depth estimation models that fuse camera images and
radar.
- Abstract(参考訳): 近年、トランスフォーマーネットワークは自然言語処理において従来のディープニューラルネットワークよりも優れており、畳み込みバックボーンに比べて多くのコンピュータビジョンタスクにおいて大きな可能性を示している。
オリジナルのトランスフォーマーでは、他のトークンから情報を集約するための指定ベクターとして読み出しトークンが使用される。
しかし、視覚トランスフォーマーにおける読み出しトークンの使用性能は限られている。
そこで本研究では,カメラ表現とレーダ表現を再構成し,レーダーデータを高密度予測トランスネットワークに統合する新しい融合手法を提案する。
リードアウトトークンを使用する代わりに、レーダー表現は単眼深度推定モデルに追加の深度情報を提供し、性能を向上させる。
高密度予測トランスフォーマーネットワークにおける付加的モダリティの統合に一般的に使用される異なる融合アプローチについてさらに検討する。
実験は、カメラ画像、ライダー、レーダーデータを含むnuScenesデータセット上で実施されている。
その結果,提案手法は一般的に用いられる融合戦略よりも優れた性能を示し,カメラ画像とレーダを融合する既存の畳み込み深度推定モデルより優れていることがわかった。
関連論文リスト
- Multimodal Transformers for Wireless Communications: A Case Study in
Beam Prediction [7.727175654790777]
センシング支援ビーム予測のためのマルチモーダルトランスフォーマー深層学習フレームワークを提案する。
我々は畳み込みニューラルネットワークを用いて、時間とともにサンプリングされた画像、点雲、レーダー生データから特徴を抽出する。
実験結果から、画像とGPSデータに基づいてトレーニングしたソリューションは、予測されたビームの最高の距離ベース精度を78.44%に向上させることがわかった。
論文 参考訳(メタデータ) (2023-09-21T06:29:38Z) - Effective Image Tampering Localization via Enhanced Transformer and
Co-attention Fusion [5.691973573807887]
本稿では,2分岐拡張型トランスフォーマーエンコーダを用いた画像改ざんネットワーク(EITLNet)を提案する。
RGBとノイズストリームから抽出した特徴は、座標注意に基づく融合モジュールによって効果的に融合される。
論文 参考訳(メタデータ) (2023-09-17T15:43:06Z) - Semantic Segmentation of Radar Detections using Convolutions on Point
Clouds [59.45414406974091]
本稿では,レーダ検出を点雲に展開する深層学習手法を提案する。
このアルゴリズムは、距離依存クラスタリングと入力点雲の事前処理により、レーダ固有の特性に適応する。
我々のネットワークは、レーダポイント雲のセマンティックセグメンテーションのタスクにおいて、PointNet++に基づく最先端のアプローチよりも優れています。
論文 参考訳(メタデータ) (2023-05-22T07:09:35Z) - T-FFTRadNet: Object Detection with Swin Vision Transformers from Raw ADC
Radar Signals [0.0]
周波数変調連続波レーダを用いた物体検出は、自律システムの分野でますます人気が高まっている。
レーダーは、LiDARのような他の放射型センサーで見られるような欠点を持っておらず、主に雨や雪などの気象条件による帰還信号の劣化や損失がある。
本稿では,レーダ物体検出の分野に階層型スウィンビジョントランスフォーマーを導入し,前処理で異なる入力に対して,異なるレーダ構成で操作可能であることを示す。
論文 参考訳(メタデータ) (2023-03-29T18:04:19Z) - Hybrid Transformer Based Feature Fusion for Self-Supervised Monocular
Depth Estimation [33.018300966769516]
アートのほとんどの状態(SOTA)は、与えられた入力画像から不均一マップを予測するために、自己監督的かつ教師なしの領域で機能する。
我々のモデルは、2つの完全畳み込み深度エンコーダを用いて学習した画素ごとの局所情報と、トランスフォーマーエンコーダによって異なるスケールで学習されたグローバルな文脈情報とを融合させる。
これは、ほとんどの標準ベンチマークで最先端のパフォーマンスを達成するために、機能領域におけるマスク誘導マルチストリームの畳み込みを使用する。
論文 参考訳(メタデータ) (2022-11-20T20:00:21Z) - Integral Migrating Pre-trained Transformer Encoder-decoders for Visual
Object Detection [78.2325219839805]
imTEDは、数発のオブジェクト検出の最先端を最大7.6%改善する。
MS COCOデータセットの実験は、imTEDが一貫してそのデータセットを2.8%上回っていることを示している。
論文 参考訳(メタデータ) (2022-05-19T15:11:20Z) - Toward Data-Driven STAP Radar [23.333816677794115]
我々は、時空間適応処理(STAP)レーダーに対するデータ駆動アプローチを特徴付ける。
所定領域に可変強度のターゲットをランダムに配置することにより、受信レーダ信号の豊富なサンプルデータセットを生成する。
この領域内の各データサンプルに対して、ビームフォーマの出力パワーのレンジ、方位、および上昇のヒートマップテンソルを生成する。
空中に浮かぶシナリオでは、動くレーダーは、ビデオに似た、これらのタイムインデクシングされたイメージスタックのシーケンスを生成する。
論文 参考訳(メタデータ) (2022-01-26T02:28:13Z) - Learning Generative Vision Transformer with Energy-Based Latent Space
for Saliency Prediction [51.80191416661064]
本稿では,有意な物体検出に先立って,潜伏変数を持つ新しい視覚変換器を提案する。
ビジョントランスネットワークとエネルギーベース先行モデルの両方は、マルコフ連鎖モンテカルロによる最大推定を通じて共同で訓練される。
生成型視覚変換器により、画像から容易に画素単位の不確実性マップを得ることができ、画像から唾液濃度を予測するためのモデル信頼度を示す。
論文 参考訳(メタデータ) (2021-12-27T06:04:33Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Vision Transformers for Dense Prediction [77.34726150561087]
高密度予測タスクのバックボーンとして、畳み込みネットワークの代わりにビジョントランスを活用するアーキテクチャである高密度ビジョントランスを紹介します。
実験により,このアーキテクチャは高密度予測タスクにおいて大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2021-03-24T18:01:17Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。