論文の概要: Multi-Modal Pedestrian Detection with Large Misalignment Based on
Modal-Wise Regression and Multi-Modal IoU
- arxiv url: http://arxiv.org/abs/2107.11196v1
- Date: Fri, 23 Jul 2021 12:58:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-26 13:53:28.377806
- Title: Multi-Modal Pedestrian Detection with Large Misalignment Based on
Modal-Wise Regression and Multi-Modal IoU
- Title(参考訳): Modal-Wise回帰とMulti-Modal IoUに基づく大規模なミスアライメントによるマルチモーダル歩行者検出
- Authors: Napat Wanchaitanawong, Masayuki Tanaka, Takashi Shibata, Masatoshi
Okutomi
- Abstract要約: 複数のモードを組み合わせることで、照明条件の悪い状況下で正確な歩行者検出が可能になる。
組み合わせの使用に必須の仮定は、2つのモダリティの間に弱いミスアライメントが存在しないか、あるいは単に存在しないことである。
本稿では,大規模な不整合に対して頑健なマルチモーダル高速RCNNを提案する。
- 参考スコア(独自算出の注目度): 15.59089347915245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The combined use of multiple modalities enables accurate pedestrian detection
under poor lighting conditions by using the high visibility areas from these
modalities together. The vital assumption for the combination use is that there
is no or only a weak misalignment between the two modalities. In general,
however, this assumption often breaks in actual situations. Due to this
assumption's breakdown, the position of the bounding boxes does not match
between the two modalities, resulting in a significant decrease in detection
accuracy, especially in regions where the amount of misalignment is large. In
this paper, we propose a multi-modal Faster-RCNN that is robust against large
misalignment. The keys are 1) modal-wise regression and 2) multi-modal IoU for
mini-batch sampling. To deal with large misalignment, we perform bounding box
regression for both the RPN and detection-head with both modalities. We also
propose a new sampling strategy called "multi-modal mini-batch sampling" that
integrates the IoU for both modalities. We demonstrate that the proposed
method's performance is much better than that of the state-of-the-art methods
for data with large misalignment through actual image experiments.
- Abstract(参考訳): 複数のモダリティを組み合わせることで、これらのモダリティから高い視認性領域を組み合わせることで、暗い照明条件下で正確な歩行者検出が可能になる。
組み合わせの使用に必須の仮定は、2つのモダリティの間に弱いミスアライメントが存在しない、あるいは単に存在しないことである。
しかし、一般に、この仮定は実際の状況でしばしば破られる。
この仮定の崩壊により、バウンディングボックスの位置は2つのモード間に一致せず、特に不一致が大きい領域において検出精度が著しく低下する。
本稿では,大規模な不整合に対して頑健なマルチモーダル高速RCNNを提案する。
キーは,1)モーダルワイド回帰,2)ミニバッチサンプリング用マルチモーダルIoUである。
大きなミスアライメントに対処するため、RPNと検出ヘッドの両方に対して、両モードでバウンディングボックスレグレッションを実行する。
両モードでIoUを統合するマルチモーダル・ミニバッチサンプリング(multi-modal mini-batch sample)という新しいサンプリング戦略を提案する。
提案手法の性能は,実画像実験による大規模不一致データに対する最先端手法よりもはるかに優れていることを実証する。
関連論文リスト
- FoRA: Low-Rank Adaptation Model beyond Multimodal Siamese Network [19.466279425330857]
そこで我々は,LMA(Low-rank Modal Adaptors)と呼ばれる新しいマルチモーダル物体検出器を提案する。
作業は2024年4月にACM MMに提出されたが拒否された。
論文 参考訳(メタデータ) (2024-07-23T02:27:52Z) - Centering the Value of Every Modality: Towards Efficient and Resilient Modality-agnostic Semantic Segmentation [7.797154022794006]
最近の試みでは、RGBのモダリティを中心とみなし、その他を補助的とみなし、2つの枝を持つ非対称なアーキテクチャを生み出している。
本稿では,コンパクトモデルから高性能モデルまで,様々なバックボーンと柔軟にペアリングできるMAGICという新しい手法を提案する。
提案手法は, モデルパラメータを60%削減しつつ, 最先端性能を実現する。
論文 参考訳(メタデータ) (2024-07-16T03:19:59Z) - AMFD: Distillation via Adaptive Multimodal Fusion for Multispectral Pedestrian Detection [23.91870504363899]
マルチスペクトル検出におけるダブルストリームネットワークは、マルチモーダルデータに2つの異なる特徴抽出枝を用いる。
これにより、組み込みデバイスにおける多スペクトル歩行者検出が自律システムに広く採用されるのを妨げている。
本稿では,教師ネットワークの本来のモーダル特徴を完全に活用できる適応型モーダル核融合蒸留(AMFD)フレームワークについて紹介する。
論文 参考訳(メタデータ) (2024-05-21T17:17:17Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Weakly Aligned Feature Fusion for Multimodal Object Detection [52.15436349488198]
マルチモーダルデータはしばしば位置ずれの問題に悩まされます。つまり、イメージペアは厳密に一致していません。
この問題により、マルチモーダルな特徴を融合させることが難しくなり、畳み込みニューラルネットワーク(CNN)のトレーニングが難解になる。
本稿では、位置ずれ問題に対処するために、アライメント領域CNN(AR-CNN)と呼ばれる汎用マルチモーダル検出器を提案する。
論文 参考訳(メタデータ) (2022-04-21T02:35:23Z) - Multi-Modal Mutual Information Maximization: A Novel Approach for
Unsupervised Deep Cross-Modal Hashing [73.29587731448345]
我々はCross-Modal Info-Max Hashing (CMIMH)と呼ばれる新しい手法を提案する。
モーダル内およびモーダル間の類似性を両立できる情報表現を学習する。
提案手法は、他の最先端のクロスモーダル検索手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2021-12-13T08:58:03Z) - Exploring Data Augmentation for Multi-Modality 3D Object Detection [82.9988604088494]
ポイントクラウドとイメージに基づくマルチモダリティメソッドは、ポイントクラウドのみを使用するアプローチよりも、わずかに良いか、時には悪いだけである。
トランスフォーメーションフローと呼ばれるパイプラインを提案し、トランスフォーメーションのリバースとリプレイによってシングルモードとマルチモードのデータ拡張のギャップを埋める。
また,本手法は第3回nuScenes検出チャレンジでPKL賞を受賞した。
論文 参考訳(メタデータ) (2020-12-23T15:23:16Z) - Improving Multispectral Pedestrian Detection by Addressing Modality
Imbalance Problems [12.806496583571858]
多スペクトル歩行者検出は、色温度変調を利用して、照明条件の不十分さに適応することができる。
従来の歩行者検出と比較して、多スペクトル歩行者検出はモダリティの不均衡問題に悩まされている。
より柔軟でバランスの取れた最適化プロセスを容易にするMBNet(Modality Balance Network)を提案する。
論文 参考訳(メタデータ) (2020-08-07T08:58:46Z) - MuCAN: Multi-Correspondence Aggregation Network for Video
Super-Resolution [63.02785017714131]
ビデオ超解像(VSR)は、複数の低解像度フレームを使用して、各フレームに対して高解像度の予測を生成することを目的としている。
フレーム間およびフレーム内は、時間的および空間的情報を利用するための鍵となるソースである。
VSRのための効果的なマルチ対応アグリゲーションネットワーク(MuCAN)を構築した。
論文 参考訳(メタデータ) (2020-07-23T05:41:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。