Fugu-MT 論文翻訳(概要): Multispectral Pedestrian Detection via Reference Box Constrained Cross Attention and Modality Balanced Optimization

論文の概要: Multispectral Pedestrian Detection via Reference Box Constrained Cross Attention and Modality Balanced Optimization

arxiv url: http://arxiv.org/abs/2302.00290v1
Date: Wed, 1 Feb 2023 07:45:10 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-02 17:53:21.508719
Title: Multispectral Pedestrian Detection via Reference Box Constrained Cross Attention and Modality Balanced Optimization
Title（参考訳）: 参照ボックス制約による多スペクトル歩行者検出とモダリティバランス最適化
Authors: Yinghui Xing, Song Wang, Guoqiang Liang, Qingyi Li, Xiuwei Zhang, Shizhou Zhang, Yanning Zhang
Abstract要約: マルチスペクトル歩行者検出TRansformerは変形可能なDETRをマルチモーダルパラダイムに拡張する。 MS-DETRは、挑戦的なKAISTとCVC-14ベンチマークデータセットよりも優れたパフォーマンスを示している。
参考スコア（独自算出の注目度）: 39.00593263036152
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multispectral pedestrian detection is an important task for many around-the-clock applications, since the visible and thermal modalities can provide complementary information especially under low light conditions. To reduce the influence of hand-designed components in available multispectral pedestrian detectors, we propose a MultiSpectral pedestrian DEtection TRansformer (MS-DETR), which extends deformable DETR to multi-modal paradigm. In order to facilitate the multi-modal learning process, a Reference box Constrained Cross-Attention (RCCA) module is firstly introduced to the multi-modal Transformer decoder, which takes fusion branch together with the reference boxes as intermediaries to enable the interaction of visible and thermal modalities. To further balance the contribution of different modalities, we design a modality-balanced optimization strategy, which aligns the slots of decoders by adaptively adjusting the instance-level weight of three branches. Our end-to-end MS-DETR shows superior performance on the challenging KAIST and CVC-14 benchmark datasets.
Abstract（参考訳）: 可視・熱変調は特に低照度条件下で相補的な情報を提供することができるため、多スペクトル歩行者検出は、多くの時空応用にとって重要な課題である。利用可能なマルチスペクトル歩行者検出器における手動設計部品の影響を低減するため,変形可能なDETRをマルチモーダルパラダイムに拡張したマルチスペクトル歩行者検出TRansformer (MS-DETR)を提案する。マルチモーダル学習プロセスを容易にするために、まず、参照ボックスと参照ボックスとの融合分岐を仲介するマルチモーダルトランスデコーダに、制約付きクロスアテンション(rcca)モジュールを導入して、可視性と熱的モダリティの相互作用を可能にする。そこで本研究では,3枝のインスタンスレベルの重みを適応的に調整することで,デコーダのスロットを整列させるモダリティバランス最適化戦略を設計する。我々のエンドツーエンドのMS-DETRは、挑戦的なKAISTとCVC-14ベンチマークデータセットよりも優れた性能を示している。

関連論文リスト

MM-DETR: An Efficient Multimodal Detection Transformer with Mamba-Driven Dual-Granularity Fusion and Frequency-Aware Modality Adapters [12.063966356953186]
マルチモーダルリモートセンシングオブジェクト検出は、困難条件下でより正確で堅牢な認識を実現することを目的としている。注意に基づく、あるいは変形可能な畳み込み融合ブロックに依存する既存のアプローチは、依然としてパフォーマンスと軽量設計のバランスをとるのに苦労している。マルチモーダルオブジェクト検出のための軽量かつ効率的なフレームワークMM-DETRを提案する。
論文参考訳（メタデータ） (2025-11-29T07:23:01Z)
DM$^3$T: Harmonizing Modalities via Diffusion for Multi-Object Tracking [10.270441242480482]
本稿では,マルチモーダル融合を反復的特徴アライメントプロセスとして再構成する新しいフレームワークであるDM$3$Tを提案する。提案するクロスモーダル拡散融合(C-MDF)モジュールを用いて,反復的クロスモーダル調和を行う。トラッカーのロバスト性をさらに向上するために,信頼性推定を適応的に処理する階層型トラッカーを設計する。
論文参考訳（メタデータ） (2025-11-28T06:02:58Z)
Dual-Perspective United Transformer for Object Segmentation in Optical Remote Sensing Images [38.942152581251165]
本稿では,長距離依存関係と空間的詳細を同時に統合するユニークな構造を持つDPU変換器を提案する。特に,2つの視点から多種多様な情報を捉えるグローバル・ローカル・ミックス・アテンションを設計する。本稿では,表現能力を高めるために,ゲート型線形フィードフォワードネットワークを提案する。
論文参考訳（メタデータ） (2025-06-27T02:40:48Z)
AuxDet: Auxiliary Metadata Matters for Omni-Domain Infrared Small Target Detection [58.67129770371016]
シーン認識最適化のためのテキストメタデータを組み込むことにより、IRSTDパラダイムを再定義する新しいIRSTDフレームワークを提案する。 AuxDetは最先端の手法を一貫して上回り、堅牢性と正確性を改善する上で補助情報の重要な役割を検証している。
論文参考訳（メタデータ） (2025-05-21T07:02:05Z)
A Split-Window Transformer for Multi-Model Sequence Spammer Detection using Multi-Model Variational Autoencoder [4.738887010407782]
本稿では,MS$2$Dformerと呼ばれる新しいトランスフォーマーを提案する。マルチモーダル変分オートエンコーダ(MVAE)に基づくユーザ行動トークン化アルゴリズムの設計公開データセットで事前トレーニングされたMS$2$Dformerのパフォーマンスは、これまでの最先端をはるかに上回っている。
論文参考訳（メタデータ） (2025-02-23T07:53:08Z)
Multi-scale Bottleneck Transformer for Weakly Supervised Multimodal Violence Detection [9.145305176998447]
弱教師付きマルチモーダル暴力検出は、複数のモダリティを活用することで暴力検出モデルを学ぶことを目的としている。本稿では,情報冗長性,モダリティの不均衡,モダリティの非同期性といった課題に明示的に対処する,弱教師付きMVD法を提案する。最大規模のXD-Violenceデータセットの実験により,提案手法が最先端の性能を実現することを示す。
論文参考訳（メタデータ） (2024-05-08T15:27:08Z)
MSCoTDet: Language-driven Multi-modal Fusion for Improved Multispectral Pedestrian Detection [44.35734602609513]
大規模言語モデルを用いた多スペクトル歩行者検出におけるモダリティバイアスの軽減方法について検討する。我々は,MSCoTプロンプトをマルチスペクトル歩行者検出に統合する新しいMSCoTDetフレームワークを提案する。
論文参考訳（メタデータ） (2024-03-22T13:50:27Z)
DAMSDet: Dynamic Adaptive Multispectral Detection Transformer with Competitive Query Selection and Adaptive Feature Fusion [82.2425759608975]
赤外可視物体検出は、赤外画像と可視画像の相補的情報を融合することにより、フルデイ物体検出の堅牢化を目指している。本稿では,この2つの課題に対処する動的適応型マルチスペクトル検出変換器(DAMSDet)を提案する。 4つの公開データセットの実験は、他の最先端の手法と比較して大幅に改善されている。
論文参考訳（メタデータ） (2024-03-01T07:03:27Z)
Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文参考訳（メタデータ） (2023-12-17T05:27:31Z)
UniTR: A Unified and Efficient Multi-Modal Transformer for Bird's-Eye-View Representation [113.35352122662752]
屋外3次元知覚のためのマルチモーダルバックボーンUniTRを提案する。 UniTRは、統一されたモデリングと共有パラメータで様々なモダリティを処理する。 UniTRは基本的にタスクに依存しないバックボーンであり、異なる3D知覚タスクを自然にサポートする。
論文参考訳（メタデータ） (2023-08-15T12:13:44Z)
CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文参考訳（メタデータ） (2022-11-26T02:40:28Z)
Weakly Aligned Feature Fusion for Multimodal Object Detection [52.15436349488198]
マルチモーダルデータはしばしば位置ずれの問題に悩まされます。つまり、イメージペアは厳密に一致していません。この問題により、マルチモーダルな特徴を融合させることが難しくなり、畳み込みニューラルネットワーク(CNN)のトレーニングが難解になる。本稿では、位置ずれ問題に対処するために、アライメント領域CNN(AR-CNN)と呼ばれる汎用マルチモーダル検出器を提案する。
論文参考訳（メタデータ） (2022-04-21T02:35:23Z)
Improving Multispectral Pedestrian Detection by Addressing Modality Imbalance Problems [12.806496583571858]
多スペクトル歩行者検出は、色温度変調を利用して、照明条件の不十分さに適応することができる。従来の歩行者検出と比較して、多スペクトル歩行者検出はモダリティの不均衡問題に悩まされている。より柔軟でバランスの取れた最適化プロセスを容易にするMBNet(Modality Balance Network)を提案する。
論文参考訳（メタデータ） (2020-08-07T08:58:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。