論文の概要: RACANet: Reliability-Aware Crowd Anchor Network for RGB-T Crowd Counting
- arxiv url: http://arxiv.org/abs/2604.24543v1
- Date: Mon, 27 Apr 2026 14:38:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:08.088444
- Title: RACANet: Reliability-Aware Crowd Anchor Network for RGB-T Crowd Counting
- Title(参考訳): RACANet: RGB-T クラウドカウントのための信頼性を考慮したクラウドアンカーネットワーク
- Authors: Jinghao Shi, Mengqi Lei, Kunliang He, Yun Li, Wei Bao, Siqi Li,
- Abstract要約: RGB-Thermal (T) の群集カウントは、複雑な場面における群集密度推定の堅牢性を改善するために可視スペクトルと熱赤外情報を統合することを目的としている。
本稿では,RGB-Tクラウドカウントのための2段階融合フレームワークRACANetを提案する。
広く使用されている2つのベンチマークデータセット、RGBT-CCとDrone-RGBTで実施された実験は、RACANetが既存の手法より優れていることを示した。
- 参考スコア(独自算出の注目度): 15.536708520170095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: RGB-Thermal (T) crowd counting aims to integrate visible-spectrum and thermal infrared information to improve the robustness of crowd density estimation in complex scenes. Although existing studies generally improve counting accuracy through cross-modal feature fusion, most current methods rely on implicit cross-modal fusion strategies and lack explicit modeling of local spatial discrepancies as well as fine-grained characterization of modality reliability at the positional level, thereby limiting the accuracy and interpretability of the fusion process. To address these issues, this paper proposes a two-stage fusion framework, RACANet, a Reliability-Aware Crowd Anchor Network for RGB-T crowd counting. First, we introduce a lightweight cross-modal alignment pretraining stage, which explicitly learns cross-modal semantic correspondences through crowd-prior supervision and local bidirectional soft matching. Then, based on the priors learned during pretraining, a Local Anchor Fusion Module (LAFM) is introduced in the formal training stage. This module generates local semantic anchors by aggregating features from highly reliable regions and further enables adaptive pixel-level feature redistribution with a local attention mechanism. In addition, we propose a discrepancy-aware consistency constraint to dynamically coordinate the reliability of regions where modal representations are consistent. Experiments conducted on two widely used benchmark datasets, RGBT-CC and Drone-RGBT, demonstrate that RACANet outperforms existing methods. The anonymous code is available at https://anonymous.4open.science/r/RACANet-9985.
- Abstract(参考訳): RGB-Thermal (T) の群集カウントは、複雑な場面における群集密度推定の堅牢性を改善するために可視スペクトルと熱赤外情報を統合することを目的としている。
既存の研究は、一般にクロスモーダルな特徴融合によってカウント精度を向上させるが、現在のほとんどの手法は暗黙のクロスモーダルな融合戦略に依存しており、局所的な空間的不一致の明示的なモデリングを欠いているだけでなく、位置レベルでのモダリティ信頼性のきめ細かいキャラクタリゼーションを欠いているため、融合過程の精度と解釈可能性を制限する。
これらの問題に対処するために,RGB-Tの群衆カウントのための信頼度を考慮したクラウドアンカーネットワークであるRACANetを提案する。
まず,クラウド・プライア・インスペクションと局所的双方向のソフトマッチングにより,モーダル間のセマンティック・アライメントを明示的に学習する,軽量なモーダルアライメント事前訓練ステージを提案する。
次に, 予備訓練で得られた事前学習に基づいて, 正式な訓練段階において局所アンカー核融合モジュール(LAFM)を導入する。
このモジュールは、高度に信頼性の高い領域から特徴を集約することで局所的な意味アンカーを生成し、さらに局所的な注意機構を備えた適応的な画素レベルの特徴再分配を可能にする。
さらに,モーダル表現が一貫した領域の信頼性を動的に調整する,離散性を考慮した整合性制約を提案する。
広く使用されている2つのベンチマークデータセット、RGBT-CCとDrone-RGBTで実施された実験は、RACANetが既存の手法より優れていることを示した。
匿名コードはhttps://anonymous.4open.science/r/RACANet-9985で公開されている。
関連論文リスト
- RTFDNet: Fusion-Decoupling for Robust RGB-T Segmentation [0.2578242050187029]
RGB-Thermal (RGB-T)セマンティックセマンティックセグメンテーションは、低照度環境で動作するロボットシステムに不可欠である。
伝統的なアプローチは、しばしばモダリティバランスを過度に強調し、センサー信号が部分的に欠如している場合に、頑丈さや厳しい性能が制限される。
論文 参考訳(メタデータ) (2026-03-10T03:40:26Z) - SURE: Semi-dense Uncertainty-REfined Feature Matching [28.68008638977835]
SUREは、一致と信頼を共同で予測する半密度不確実性再定義マッチングフレームワークである。
我々のアプローチは、軽量な空間融合モジュールとともに、信頼に値する座標回帰のための新しい明らかな頭部を軌道に乗せる。
提案手法は精度と効率の両面で既存の最先端のセミセンスマッチングモデルより一貫して優れている。
論文 参考訳(メタデータ) (2026-03-05T06:53:11Z) - Toward Stable Semi-Supervised Remote Sensing Segmentation via Co-Guidance and Co-Fusion [31.189038928192648]
Co2Sは半教師付きRSセグメンテーションフレームワークで、ビジョン言語モデルと自己教師型モデルとを融合する。
テキスト埋め込みと学習可能なクエリを利用した,明示的でシンプルなセマンティックコガイダンス機構が導入された。
6つの一般的なデータセットに対する実験は,提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2025-12-28T18:24:19Z) - A Dual-Modulation Framework for RGB-T Crowd Counting via Spatially Modulated Attention and Adaptive Fusion [10.919439739345195]
本稿では,RGB-Thermal (RGB-T) の正確なクラウドカウントのためのDual Modulation Frameworkを提案する。
我々は空間変調注意(SMA)と適応核融合変調(AFM)の2つのモジュールを使用する。
RGB-T群集カウントデータセットを用いた実験により, 従来の手法と比較して, 提案手法の優れた性能を示した。
論文 参考訳(メタデータ) (2025-09-21T13:52:29Z) - Graph-Based Uncertainty Modeling and Multimodal Fusion for Salient Object Detection [12.743278093269325]
動的不確実性伝播とマルチモーダル協調推論ネットワーク(DUP-MCRNet)を提案する。
DUGCは空間意味距離に基づいて構築されたスパースグラフを通じて層間の不確実性を伝播するように設計されている。
MCFは学習可能なモダリティゲーティングウェイトを使用して、RGB、深さ、エッジの特徴の注意マップを重み付けする。
論文 参考訳(メタデータ) (2025-08-28T04:31:48Z) - Spatial Semantic Recurrent Mining for Referring Image Segmentation [63.34997546393106]
高品質なクロスモーダリティ融合を実現するために,Stextsuperscript2RMを提案する。
これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。
提案手法は他の最先端アルゴリズムに対して好適に機能する。
論文 参考訳(メタデータ) (2024-05-15T00:17:48Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Weakly Aligned Feature Fusion for Multimodal Object Detection [52.15436349488198]
マルチモーダルデータはしばしば位置ずれの問題に悩まされます。つまり、イメージペアは厳密に一致していません。
この問題により、マルチモーダルな特徴を融合させることが難しくなり、畳み込みニューラルネットワーク(CNN)のトレーニングが難解になる。
本稿では、位置ずれ問題に対処するために、アライメント領域CNN(AR-CNN)と呼ばれる汎用マルチモーダル検出器を提案する。
論文 参考訳(メタデータ) (2022-04-21T02:35:23Z) - Higher Performance Visual Tracking with Dual-Modal Localization [106.91097443275035]
Visual Object Tracking (VOT)は、堅牢性と正確性の両方に同期性を必要とする。
ONRによるロバストなローカリゼーション抑制器とOFCによるターゲットセンターへの正確なローカリゼーションにより、ターゲットローカリゼーションのためのデュアルモーダルフレームワークを提案します。
論文 参考訳(メタデータ) (2021-03-18T08:47:56Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。