論文の概要: A Dual-Stream Transformer Architecture for Illumination-Invariant TIR-LiDAR Person Tracking
- arxiv url: http://arxiv.org/abs/2604.00363v1
- Date: Wed, 01 Apr 2026 01:20:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.783098
- Title: A Dual-Stream Transformer Architecture for Illumination-Invariant TIR-LiDAR Person Tracking
- Title(参考訳): イルミネーション不変なTIR-LiDAR人物追跡のためのデュアルストリームトランスアーキテクチャ
- Authors: Yuki Minase, Kanji Tanaka,
- Abstract要約: 本稿では、SLAM対応ロボットの標準センサースイートを活用した、新しい熱赤外深度追跡アーキテクチャを提案する。
我々は、大規模熱訓練モデルからTIR-Dドメインへの構造的先行を進化させるシーケンシャルな知識伝達戦略を導入する。
実験の結果,提案したTIR-Dトラッカーは平均オーバーラップ(AO)が0.700,成功率(SR)が58.7%,優れた性能を達成できた。
- 参考スコア(独自算出の注目度): 0.7734726150561086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robust person tracking is a critical capability for autonomous mobile robots operating in diverse and unpredictable environments. While RGB-D tracking has shown high precision, its performance severely degrades under challenging illumination conditions, such as total darkness or intense backlighting. To achieve all-weather robustness, this paper proposes a novel Thermal-Infrared and Depth (TIR-D) tracking architecture that leverages the standard sensor suite of SLAM-capable robots, namely LiDAR and TIR cameras. A major challenge in TIR-D tracking is the scarcity of annotated multi-modal datasets. To address this, we introduce a sequential knowledge transfer strategy that evolves structural priors from a large-scale thermal-trained model into the TIR-D domain. By employing a differential learning rate strategy -- referred to as ``Fine-grained Differential Learning Rate Strategy'' -- we effectively preserve pre-trained feature extraction capabilities while enabling rapid adaptation to geometric depth cues. Experimental results demonstrate that our proposed TIR-D tracker achieves superior performance, with an Average Overlap (AO) of 0.700 and a Success Rate (SR) of 58.7\%, significantly outperforming conventional RGB-transfer and single-modality baselines. Our approach provides a practical and resource-efficient solution for robust human-following in all-weather robotics applications.
- Abstract(参考訳): ロバストな人物追跡は、多様な予測不可能な環境で動く自律移動ロボットにとって重要な機能である。
RGB-D追跡は精度が高いが、その性能は全暗黒や激しいバックライトなど、困難な照明条件下で著しく低下する。
本稿では,SLAM対応ロボット,すなわちLiDARとTIRカメラの標準センサースイートを活用する,新しい熱赤外・深度追跡アーキテクチャを提案する。
TIR-Dトラッキングの大きな課題は、アノテーション付きマルチモーダルデータセットの不足である。
そこで本研究では,大規模熱訓練モデルからTIR-D領域への構造的先行を進化させるシーケンシャルな知識伝達戦略を提案する。
差分学習率戦略(「Fine-fine Differential Learning Rate Strategy」と呼ばれる)を用いることで、幾何深度キューへの迅速な適応を可能にしつつ、事前学習した特徴抽出能力を効果的に維持する。
実験の結果,提案したTIR-Dトラッカーは平均オーバーラップ(AO)が0.700、成功率(SR)が58.7\%であり,従来のRGB転送と単一モードのベースラインを著しく上回った。
我々のアプローチは、全天候ロボットアプリケーションにおいて、堅牢な人間追従を実現するための実用的で資源効率のよいソリューションを提供する。
関連論文リスト
- RT-RMOT: A Dataset and Framework for RGB-Thermal Referring Multi-Object Tracking [33.865410526024746]
RT-RMOTと呼ばれる新しいRGBサーマルRMOTタスクを提案する。
本稿では,RGB-ThermalModality(RefRT)をベースとして,最初の参照多目的追跡データセットを構築した。
さらに,RGB,熱,テキスト機能を統合したマルチモーダル大規模言語モデル(MLLM)に基づくフレームワークであるRTrackを提案する。
論文 参考訳(メタデータ) (2026-02-25T15:41:31Z) - Collaborating Vision, Depth, and Thermal Signals for Multi-Modal Tracking: Dataset and Algorithm [103.36490810025752]
既存のマルチモーダルオブジェクト追跡アプローチは、主にRGB-DepthやRGB-Thermalのようなデュアルモーダルパラダイムに焦点を当てている。
本研究は、可視RGB、深度(D)、熱赤外(TIR)を含む3つの相補的なモードを利用する、新しいマルチモーダルトラッキングタスクを導入する。
我々はRDTTrackと呼ばれる新しいマルチモーダルトラッカーを提案する。これは、事前訓練されたRGBのみのトラッカーモデルを活用することで、ロバストトラッカーのためのトリモーダル情報を統合する。
論文 参考訳(メタデータ) (2025-09-29T13:05:15Z) - ROVR-Open-Dataset: A Large-Scale Depth Dataset for Autonomous Driving [62.9051914830949]
実世界の運転の複雑さを捉えるために設計された,大規模で多様で費用効率のよい深度データセットであるROVRを提案する。
軽量な取得パイプラインは、スケーラブルなコレクションを保証すると同時に、統計的に十分な基礎的真実は堅牢なトレーニングをサポートする。
最先端の単分子深度モデルによるベンチマークでは、厳密なクロスデータセットの一般化失敗が示される。
論文 参考訳(メタデータ) (2025-08-19T16:13:49Z) - SMTT: Novel Structured Multi-task Tracking with Graph-Regularized Sparse Representation for Robust Thermal Infrared Target Tracking [8.52497147463548]
熱赤外目標追跡は、監視、自律運転、軍事作戦などの応用において重要である。
本稿では,熱赤外画像における共通課題を効果的に解決する新しいトラッカーSMTTを提案する。
論文 参考訳(メタデータ) (2025-04-20T10:56:15Z) - Resource-Efficient Beam Prediction in mmWave Communications with Multimodal Realistic Simulation Framework [57.994965436344195]
ビームフォーミングは、方向と強度を最適化して信号伝送を改善するミリ波通信において重要な技術である。
マルチモーダルセンシング支援ビーム予測は,ユーザ位置やネットワーク条件を予測するために,さまざまなセンサデータを使用して注目されている。
その有望な可能性にもかかわらず、マルチモーダルセンシング支援ビーム予測の採用は、高い計算複雑性、高いコスト、限られたデータセットによって妨げられている。
論文 参考訳(メタデータ) (2025-04-07T15:38:25Z) - Multi-modal Multi-platform Person Re-Identification: Benchmark and Method [58.59888754340054]
MP-ReIDは、マルチモダリティとマルチプラットフォームReIDに特化した新しいデータセットである。
このベンチマークは、RGB、赤外線、サーマルイメージングなど、さまざまなモードで1,930のIDからデータをコンパイルする。
クロスモダリティとクロスプラットフォームシナリオに適した,特定設計のプロンプトを備えたフレームワークであるUni-Prompt ReIDを紹介する。
論文 参考訳(メタデータ) (2025-03-21T12:27:49Z) - Dynamic-Dark SLAM: RGB-Thermal Cooperative Robot Vision Strategy for Multi-Person Tracking in Both Well-Lit and Low-Light Scenes [1.1874952582465603]
RGBとサーマルカメラを併用した協調MPTシステムを提案する。
評価実験により、サーマルトラッカーは明るい環境と暗い環境の両方で堅牢に機能することが示された。
この研究は、新しいHuman-Only SLAMパラダイム、Dynamic-Dark SLAM'に向けた第一歩となる。
論文 参考訳(メタデータ) (2025-03-17T03:05:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。