論文の概要: Multimodal Spatio-temporal Graph Learning for Alignment-free RGBT Video Object Detection
- arxiv url: http://arxiv.org/abs/2504.11779v1
- Date: Wed, 16 Apr 2025 05:32:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 14:39:43.367769
- Title: Multimodal Spatio-temporal Graph Learning for Alignment-free RGBT Video Object Detection
- Title(参考訳): 調整不要なRGBTビデオオブジェクト検出のためのマルチモーダル時空間グラフ学習
- Authors: Qishun Wang, Zhengzheng Tu, Chenglong Li, Bo Jiang,
- Abstract要約: RGB-Thermal Video Object Detection (RGBT VOD)は、従来のRGBベースのVODの照明条件の制限に対処することができる。
本稿では,アライメントフリーなRGBTVOD問題に対するマルチモーダル時空間グラフ学習ネットワーク(MSGNet)を提案する。
- 参考スコア(独自算出の注目度): 13.682115079677466
- License:
- Abstract: RGB-Thermal Video Object Detection (RGBT VOD) can address the limitation of traditional RGB-based VOD in challenging lighting conditions, making it more practical and effective in many applications. However, similar to most RGBT fusion tasks, it still mainly relies on manually aligned multimodal image pairs. In this paper, we propose a novel Multimodal Spatio-temporal Graph learning Network (MSGNet) for alignment-free RGBT VOD problem by leveraging the robust graph representation learning model. Specifically, we first design an Adaptive Partitioning Layer (APL) to estimate the corresponding regions of the Thermal image within the RGB image (high-resolution), achieving a preliminary inexact alignment. Then, we introduce the Spatial Sparse Graph Learning Module (S-SGLM) which employs a sparse information passing mechanism on the estimated inexact alignment to achieve reliable information interaction between different modalities. Moreover, to fully exploit the temporal cues for RGBT VOD problem, we introduce Hybrid Structured Temporal Modeling (HSTM), which involves a Temporal Sparse Graph Learning Module (T-SGLM) and Temporal Star Block (TSB). T-SGLM aims to filter out some redundant information between adjacent frames by employing the sparse aggregation mechanism on the temporal graph. Meanwhile, TSB is dedicated to achieving the complementary learning of local spatial relationships. Extensive comparative experiments conducted on both the aligned dataset VT-VOD50 and the unaligned dataset UVT-VOD2024 demonstrate the effectiveness and superiority of our proposed method. Our project will be made available on our website for free public access.
- Abstract(参考訳): RGB-Thermal Video Object Detection (RGBT VOD) は、従来のRGBベースのVODの照明条件に対する制限に対処できるため、多くのアプリケーションにおいてより実用的で効果的である。
しかし、ほとんどのRGBT融合タスクと同様に、主に手動のマルチモーダルイメージペアに依存している。
本稿では、ロバストグラフ表現学習モデルを利用して、アライメントフリーなRGBTVOD問題に対するマルチモーダル時空間グラフ学習ネットワーク(MSGNet)を提案する。
具体的には、まず適応分割層(APL)を設計し、RGB画像内の熱画像の対応する領域(高解像度)を推定し、予備的な不正確なアライメントを実現する。
次に,空間スパースグラフ学習モジュール(S-SGLM)を導入し,推定不正確なアライメントに対してスパース情報伝達機構を用いて,異なるモーダル間の信頼性の高い情報インタラクションを実現する。
さらに, RGBT VOD問題に対する時間的手がかりをフル活用するために, テンポラルスパースグラフ学習モジュール(T-SGLM)とテンポラルスターブロック(TSB)を含むHybrid Structured Temporal Modeling (HSTM)を導入する。
T-SGLMは、時間グラフ上のスパースアグリゲーション機構を用いて、隣接フレーム間の冗長情報をフィルタリングすることを目的としている。
一方、TSBは局所的な空間的関係の補完的な学習を実現することを目的としている。
一致データセットVT-VOD50と非一致データセットUVT-VOD2024の比較実験により,提案手法の有効性と優位性を示した。
私たちのプロジェクトは、私たちのウェブサイトで無料で公開されます。
関連論文リスト
- Unveiling the Limits of Alignment: Multi-modal Dynamic Local Fusion Network and A Benchmark for Unaligned RGBT Video Object Detection [5.068440399797739]
現在のRGB-Thermal Video Object Detection (RGBT VOD) 法は、画像レベルで手動で調整するデータに依存する。
不整合RGBTペアを扱うために設計されたMDLNet(Multi-modal Dynamic Local fusion Network)を提案する。
MDLNet と State-of-the-art (SOTA) モデルとの総合的な評価と比較を行い,MDLNet の有効性を実証した。
論文 参考訳(メタデータ) (2024-10-16T01:06:12Z) - Enhancing Video-Language Representations with Structural Spatio-Temporal Alignment [130.15775113897553]
フィンスタは微細な構造的時間的アライメント学習法である。
既存の13の強化されたビデオ言語モデルも一貫して改善されている。
論文 参考訳(メタデータ) (2024-06-27T15:23:36Z) - Erasure-based Interaction Network for RGBT Video Object Detection and A
Unified Benchmark [9.979933455242774]
この研究は、RGB-thermal (RGBT) VODと呼ばれる新しいコンピュータビジョンタスクを導入する。
従来のビデオオブジェクト検出(VOD)手法は時間的情報を利用することが多い。
熱画像特徴の助けを借りてRGB特徴のノイズを消すために用いられる負のアクティベーション関数を開発した。
論文 参考訳(メタデータ) (2023-08-03T09:04:48Z) - A Unified Multimodal De- and Re-coupling Framework for RGB-D Motion
Recognition [24.02488085447691]
そこで本稿では,MixUp の補足として機能する ShuffleMix という新しいビデオデータ拡張手法を提案する。
第2に、ビデオ表現学習において、UMDRと呼ばれる統一マルチモーダルデカップリングおよびマルチステージリカップリングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-16T19:00:23Z) - Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based
Motion Recognition [62.46544616232238]
従来の動作認識手法は、密結合した多時間表現によって有望な性能を実現している。
本稿では,RGB-D に基づく動作認識において引き起こされた表現を分離し,再分離することを提案する。
論文 参考訳(メタデータ) (2021-12-16T18:59:47Z) - TCGL: Temporal Contrastive Graph for Self-supervised Video
Representation Learning [79.77010271213695]
本稿では,TCGL(Temporal Contrastive Graph Learning)という,ビデオの自己教師型学習フレームワークを提案する。
TCGLは、フレームとスニペットの順序に関する以前の知識をグラフ構造、すなわち、インター/インタースニペットの時間トラストグラフ(TCG)に統合します。
ラベルなしビデオの監視信号を生成するために,適応スニペット順序予測(ASOP)モジュールを導入する。
論文 参考訳(メタデータ) (2021-12-07T09:27:56Z) - Spatiotemporal Inconsistency Learning for DeepFake Video Detection [51.747219106855624]
本稿では,水平方向と垂直方向の両方で隣接するフレーム間の時間差を利用して,TIMにおける新しい時間的モデリングパラダイムを提案する。
ISMは、SIMからの空間情報とTIMからの時間情報とを同時に利用し、より包括的な時空間表現を確立する。
論文 参考訳(メタデータ) (2021-09-04T13:05:37Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Temporal Contrastive Graph Learning for Video Action Recognition and
Retrieval [83.56444443849679]
本研究では,動画内の時間依存性を利用して,TCGL (temporal Contrastive Graph Learning) という新たな自己監督手法を提案する。
TCGLは、スニペット間およびスニペット内時間依存性を時間表現学習のための自己監督信号として共同で評価するハイブリッドグラフコントラスト学習戦略をルーツとしています。
実験結果は、大規模アクション認識およびビデオ検索ベンチマークにおける最先端の方法よりも、TCGLの優位性を示しています。
論文 参考訳(メタデータ) (2021-01-04T08:11:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。