論文の概要: Revisiting Misalignment in Multispectral Pedestrian Detection: A Language-Driven Approach for Cross-modal Alignment Fusion
- arxiv url: http://arxiv.org/abs/2411.17995v1
- Date: Wed, 27 Nov 2024 02:24:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:26:51.478434
- Title: Revisiting Misalignment in Multispectral Pedestrian Detection: A Language-Driven Approach for Cross-modal Alignment Fusion
- Title(参考訳): 多スペクトルペデストリアン検出における誤りの再検討:クロスモーダルアライメント融合における言語駆動アプローチ
- Authors: Taeheon Kim, Sangyun Chung, Youngjoon Yu, Yong Man Ro,
- Abstract要約: 本稿では,高度に不整合したデータセットを扱うために設計された多スペクトル歩行者検出のための新しい枠組みを提案する。
大規模視覚言語モデル(LVLM)を相互意味的アライメントに活用することにより,検出精度の向上を図る。
- 参考スコア(独自算出の注目度): 43.29589667431712
- License:
- Abstract: Multispectral pedestrian detection is a crucial component in various critical applications. However, a significant challenge arises due to the misalignment between these modalities, particularly under real-world conditions where data often appear heavily misaligned. Conventional methods developed on well-aligned or minimally misaligned datasets fail to address these discrepancies adequately. This paper introduces a new framework for multispectral pedestrian detection designed specifically to handle heavily misaligned datasets without the need for costly and complex traditional pre-processing calibration. By leveraging Large-scale Vision-Language Models (LVLM) for cross-modal semantic alignment, our approach seeks to enhance detection accuracy by aligning semantic information across the RGB and thermal domains. This method not only simplifies the operational requirements but also extends the practical usability of multispectral detection technologies in practical applications.
- Abstract(参考訳): 多スペクトル歩行者検出は、様々な重要な応用において重要な要素である。
しかし、これらのモダリティのミスアライメント、特にデータが大雑把に一致しているように見える現実の環境では、大きな課題が生じる。
整合性や最小整合性に欠けるデータセット上で開発された従来の手法は、これらの相違に適切に対処することができない。
本稿では、コストが高く複雑な従来の前処理キャリブレーションを必要とせずに、高度に不整合したデータセットを処理するために設計された、マルチスペクトル歩行者検出のための新しいフレームワークを提案する。
大規模視覚言語モデル(LVLM)を相互意味的アライメントに活用することにより,RGB領域と熱領域をまたいだ意味情報の整合化による検出精度の向上を図る。
本手法は,運用要件を単純化するだけでなく,実用用途におけるマルチスペクトル検出技術の実用性も拡張する。
関連論文リスト
- Training-free Anomaly Event Detection via LLM-guided Symbolic Pattern Discovery [70.75963253876628]
異常事象検出は、様々な現実世界のアプリケーションにおいて重要な役割を果たす。
オープンセットオブジェクト検出とシンボリック回帰を統合した学習自由フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-09T10:30:54Z) - What Really Matters for Learning-based LiDAR-Camera Calibration [50.2608502974106]
本稿では,学習に基づくLiDAR-Cameraキャリブレーションの開発を再考する。
我々は、広く使われているデータ生成パイプラインによる回帰ベースの手法の限界を識別する。
また,入力データ形式と前処理操作がネットワーク性能に与える影響についても検討する。
論文 参考訳(メタデータ) (2025-01-28T14:12:32Z) - Optimizing Multispectral Object Detection: A Bag of Tricks and Comprehensive Benchmarks [49.84182981950623]
RGBおよびTIR(熱赤外)変調を利用したマルチスペクトル物体検出は,課題として広く認識されている。
モダリティと堅牢な融合戦略の両方から特徴を効果的に抽出するだけでなく、スペクトルの相違といった問題に対処する能力も必要である。
本稿では,高パフォーマンス単一モードモデルのシームレスな最適化が可能な,効率的かつ容易にデプロイ可能なマルチスペクトルオブジェクト検出フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-27T12:18:39Z) - Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection [59.41026558455904]
具体的には,大規模ビジュアルデータセット上で事前学習されたモデルを利用した初期のマルチモーダルアプローチについて検討する。
本研究では,アダプタを微調整し,異常検出に向けたタスク指向の表現を学習するためのLSFA法を提案する。
論文 参考訳(メタデータ) (2024-01-06T07:30:41Z) - Transcending Forgery Specificity with Latent Space Augmentation for Generalizable Deepfake Detection [57.646582245834324]
LSDAと呼ばれる簡易で効果的なディープフェイク検出器を提案する。
より多様な偽の表現は、より一般化可能な決定境界を学べるべきである。
提案手法は驚くほど有効であり, 広く使用されている複数のベンチマークで最先端の検出器を超越することを示す。
論文 参考訳(メタデータ) (2023-11-19T09:41:10Z) - Comparing AutoML and Deep Learning Methods for Condition Monitoring
using Realistic Validation Scenarios [0.0]
本研究では、AutoMLツールボックスを用いた条件監視タスクにおける従来の機械学習手法とディープラーニングを広範囲に比較する。
実験では、ランダムなK倍のクロスバリデーションシナリオにおいて、全ての試験モデルに対して一貫した高い精度を示す。
実際のシナリオにおけるドメインシフトの存在を示す明確な勝者は現れない。
論文 参考訳(メタデータ) (2023-08-28T14:57:29Z) - A Dimensional Structure based Knowledge Distillation Method for
Cross-Modal Learning [15.544134849816528]
簡単な作業から抽出した特徴を解析・観察することで特徴識別性と次元構造(DS)の相関を見いだす。
クロスモーダル・ナレッジ・蒸留法 (CMKD) を提案し, 教師付きクロスモーダル・ラーニング (CML) の性能向上を図る。
提案手法は, チャネル的に独立して, 中間的な特徴を均一に分散させることで, その精度を高めるために, 難易度から意味的に無関係な特徴を学習する。
論文 参考訳(メタデータ) (2023-06-28T07:29:26Z) - Unsupervised Anomaly Detection via Nonlinear Manifold Learning [0.0]
異常は、残りのデータから著しく逸脱するサンプルであり、その検出は機械学習モデルを構築する上で大きな役割を果たす。
非線形多様体学習に基づく頑健で効率的かつ解釈可能な手法を導入し,教師なし設定における異常を検出する。
論文 参考訳(メタデータ) (2023-06-15T18:48:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。