論文の概要: Spectral-Enhanced Transformers: Leveraging Large-Scale Pretrained Models for Hyperspectral Object Tracking
- arxiv url: http://arxiv.org/abs/2502.18748v1
- Date: Wed, 26 Feb 2025 01:46:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:56:36.163254
- Title: Spectral-Enhanced Transformers: Leveraging Large-Scale Pretrained Models for Hyperspectral Object Tracking
- Title(参考訳): スペクトル強化変換器:ハイパースペクトル物体追跡のための大規模事前学習モデルを活用する
- Authors: Shaheer Mohamed, Tharindu Fernando, Sridha Sridharan, Peyman Moghadam, Clinton Fookes,
- Abstract要約: 本稿では,超スペクトル物体追跡のためのトランスフォーマーベース基礎モデルに適応する効果的な手法を提案する。
本稿では,任意の変圧器ベースのバックボーンに拡張可能な適応型,学習可能な空間分光トークン融合モジュールを提案する。
- 参考スコア(独自算出の注目度): 35.34526230299484
- License:
- Abstract: Hyperspectral object tracking using snapshot mosaic cameras is emerging as it provides enhanced spectral information alongside spatial data, contributing to a more comprehensive understanding of material properties. Using transformers, which have consistently outperformed convolutional neural networks (CNNs) in learning better feature representations, would be expected to be effective for Hyperspectral object tracking. However, training large transformers necessitates extensive datasets and prolonged training periods. This is particularly critical for complex tasks like object tracking, and the scarcity of large datasets in the hyperspectral domain acts as a bottleneck in achieving the full potential of powerful transformer models. This paper proposes an effective methodology that adapts large pretrained transformer-based foundation models for hyperspectral object tracking. We propose an adaptive, learnable spatial-spectral token fusion module that can be extended to any transformer-based backbone for learning inherent spatial-spectral features in hyperspectral data. Furthermore, our model incorporates a cross-modality training pipeline that facilitates effective learning across hyperspectral datasets collected with different sensor modalities. This enables the extraction of complementary knowledge from additional modalities, whether or not they are present during testing. Our proposed model also achieves superior performance with minimal training iterations.
- Abstract(参考訳): スナップショットモザイクカメラを用いたハイパースペクトル物体追跡は、空間データとともにスペクトル情報を拡張し、材料特性のより包括的な理解に寄与する。
より優れた特徴表現の学習において、畳み込みニューラルネットワーク(CNN)を一貫して上回っているトランスフォーマーを使用することは、ハイパースペクトルオブジェクトトラッキングに有効であると期待されている。
しかし、大規模なトランスフォーマーのトレーニングには広範なデータセットと長期間のトレーニング期間が必要である。
これはオブジェクト追跡のような複雑なタスクに特に重要であり、ハイパースペクトル領域における大きなデータセットの不足は、強力なトランスフォーマーモデルの完全な潜在能力を達成するためのボトルネックとして機能する。
本稿では,高スペクトル物体追跡のための変圧器をベースとした大規模基礎モデルを効果的に適用する手法を提案する。
ハイパースペクトルデータに固有の空間スペクトル特徴を学習するために,任意のトランスフォーマーベースバックボーンに拡張可能な適応型,学習可能な空間分光トークン融合モジュールを提案する。
さらに、我々のモデルは、異なるセンサモードで収集されたハイパースペクトルデータセット間の効果的な学習を容易にする、クロスモーダルトレーニングパイプラインを組み込んでいる。
これにより、テスト中に存在するか否かに関わらず、追加のモダリティから補完的な知識を抽出することができる。
提案したモデルは,最小限のトレーニングイテレーションで優れたパフォーマンスを実現する。
関連論文リスト
- Hyperspectral Images Efficient Spatial and Spectral non-Linear Model with Bidirectional Feature Learning [7.06787067270941]
本稿では,分類精度を高めつつ,データ量を大幅に削減する新しいフレームワークを提案する。
本モデルでは,空間特徴解析のための特殊ブロックによって補完されるスペクトル特徴を効率よく抽出するために,双方向逆畳み込みニューラルネットワーク(CNN)を用いる。
論文 参考訳(メタデータ) (2024-11-29T23:32:26Z) - Causal Transformer for Fusion and Pose Estimation in Deep Visual Inertial Odometry [1.2289361708127877]
深部視覚-慣性眼振におけるポーズ推定のための因果的視覚-慣性融合変換器 (VIFT) を提案する。
提案手法はエンドツーエンドのトレーニングが可能であり,単眼カメラとIMUのみを必要とする。
論文 参考訳(メタデータ) (2024-09-13T12:21:25Z) - CFPFormer: Feature-pyramid like Transformer Decoder for Segmentation and Detection [1.837431956557716]
特徴ピラミッドは、医療画像のセグメンテーションやオブジェクト検出といったタスクのために、畳み込みニューラルネットワーク(CNN)やトランスフォーマーで広く採用されている。
本稿では,特徴ピラミッドと変圧器を統合したデコーダブロックを提案する。
本モデルでは,既存手法と比較して,小型物体の検出性能が向上する。
論文 参考訳(メタデータ) (2024-04-23T18:46:07Z) - Hybrid Transformer and Spatial-Temporal Self-Supervised Learning for
Long-term Traffic Prediction [1.8531577178922987]
本稿では,ハイブリッドトランスフォーマーと自己教師型学習を組み合わせたモデルを提案する。
このモデルは、トラフィックのシーケンスレベルにデータ拡張技術を適用することにより、適応的なデータ拡張を強化する。
本研究では,時間的および空間的依存をモデル化する2つの自己教師型学習タスクを設計し,モデルの精度と能力を向上させる。
論文 参考訳(メタデータ) (2024-01-29T06:17:23Z) - FactoFormer: Factorized Hyperspectral Transformers with Self-Supervised
Pretraining [36.44039681893334]
ハイパースペクトル画像(HSI)は、豊富なスペクトルと空間情報を含む。
現在の最先端ハイパースペクトル変換器は、入力されたHSIサンプルをスペクトル次元に沿ってトークン化するのみである。
本稿では、自己教師付き事前学習手順を取り入れた新しい分解スペクトル空間変換器を提案する。
論文 参考訳(メタデータ) (2023-09-18T02:05:52Z) - Leveraging the Power of Data Augmentation for Transformer-based Tracking [64.46371987827312]
トラッキング用にカスタマイズされた2つのデータ拡張手法を提案する。
まず、動的探索半径機構と境界サンプルのシミュレーションにより、既存のランダムトリミングを最適化する。
第2に,背景干渉などの問題に対するモデルを可能にする,トークンレベルの機能混在強化戦略を提案する。
論文 参考訳(メタデータ) (2023-09-15T09:18:54Z) - Cross-modal Orthogonal High-rank Augmentation for RGB-Event
Transformer-trackers [58.802352477207094]
本研究では,2つのモード間の分布ギャップを埋めるために,事前学習された視覚変換器(ViT)の潜在可能性を探る。
本研究では,いくつかのトークンの特定のモダリティをランダムにマスキングし,異なるモダリティのトークン間の相互作用を積極的に行うマスクモデリング戦略を提案する。
実験により,我々のプラグアンドプレイトレーニング強化技術は,追跡精度と成功率の両方の観点から,最先端のワンストリームと2つのトラッカーストリームを大幅に向上させることができることが示された。
論文 参考訳(メタデータ) (2023-07-09T08:58:47Z) - VTAE: Variational Transformer Autoencoder with Manifolds Learning [144.0546653941249]
深層生成モデルは、多くの潜伏変数を通して非線形データ分布の学習に成功している。
ジェネレータの非線形性は、潜在空間がデータ空間の不満足な射影を示し、表現学習が不十分になることを意味する。
本研究では、測地学と正確な計算により、深部生成モデルの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-04-03T13:13:19Z) - An Extendable, Efficient and Effective Transformer-based Object Detector [95.06044204961009]
我々は、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
ViDTは、最近のSwin Transformerをスタンドアロンのオブジェクト検出器に拡張するために、再構成されたアテンションモジュールを導入した。
オブジェクト検出とインスタンスセグメンテーションのための共同タスク学習をサポートするために、ViDT+に拡張する。
論文 参考訳(メタデータ) (2022-04-17T09:27:45Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。