論文の概要: Prototype-based Cross-Modal Object Tracking
- arxiv url: http://arxiv.org/abs/2312.14471v1
- Date: Fri, 22 Dec 2023 06:49:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 15:49:37.337415
- Title: Prototype-based Cross-Modal Object Tracking
- Title(参考訳): プロトタイプを用いたクロスモーダル物体追跡
- Authors: Lei Liu, Chenglong Li, Futian Wang, Longfeng Shen, and Jin Tang
- Abstract要約: クロスモーダル物体追跡は情報融合分野における重要な研究課題である。
本稿では,プロトタイプをベースとしたオブジェクトトラッカーProtoTrackを提案する。
特に,第1フレームからの固定サンプルと,異なるモダリティからの2つの代表サンプルを含む多種多様なサンプルを用いて,対象情報を表現するためのマルチモーダルプロトタイプを設計する。
- 参考スコア(独自算出の注目度): 17.367890389752596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-modal object tracking is an important research topic in the field of
information fusion, and it aims to address imaging limitations in challenging
scenarios by integrating switchable visible and near-infrared modalities.
However, existing tracking methods face some difficulties in adapting to
significant target appearance variations in the presence of modality switch.
For instance, model update based tracking methods struggle to maintain stable
tracking results during modality switching, leading to error accumulation and
model drift. Template based tracking methods solely rely on the template
information from first frame and/or last frame, which lacks sufficient
representation ability and poses challenges in handling significant target
appearance changes. To address this problem, we propose a prototype-based
cross-modal object tracker called ProtoTrack, which introduces a novel
prototype learning scheme to adapt to significant target appearance variations,
for cross-modal object tracking. In particular, we design a multi-modal
prototype to represent target information by multi-kind samples, including a
fixed sample from the first frame and two representative samples from different
modalities. Moreover, we develop a prototype generation algorithm based on two
new modules to ensure the prototype representative in different
challenges......
- Abstract(参考訳): クロスモーダル物体追跡は情報融合分野における重要な研究課題であり、切替可能な可視光と近赤外モードを統合することで、困難なシナリオにおける画像制限に対処することを目的としている。
しかし,既存の追跡手法では,モダリティスイッチの存在下での客観性の変化に適応することが困難である。
例えば、モデル更新に基づくトラッキング手法は、モダリティ切り替え中に安定したトラッキング結果を維持するのに苦労し、エラーの蓄積とモデルドリフトにつながる。
テンプレートベースのトラッキング手法は、最初のフレームおよび/または最後のフレームからのテンプレート情報のみに依存している。
この問題に対処するために,prototrackと呼ばれるプロトタイプベースのクロスモーダルオブジェクトトラッカを提案する。
特に,対象情報を表すマルチモーダルプロトタイプを,第1フレームからの固定サンプルと異なるモダリティの2つの代表サンプルを含む,多種多様なサンプルで設計する。
さらに、2つの新しいモジュールに基づくプロトタイプ生成アルゴリズムを開発し、異なる課題におけるプロトタイプ代表性を保証する。
関連論文リスト
- DeTra: A Unified Model for Object Detection and Trajectory Forecasting [68.85128937305697]
提案手法は,2つのタスクの結合を軌道修正問題として定式化する。
この統合タスクに対処するために、オブジェクトの存在, ポーズ, マルチモーダルな将来の振る舞いを推測する精細化変換器を設計する。
実験では、我々のモデルはArgoverse 2 Sensor and Openデータセットの最先端性よりも優れています。
論文 参考訳(メタデータ) (2024-06-06T18:12:04Z) - A Novel Bounding Box Regression Method for Single Object Tracking [0.0]
本稿では,2つの新しいバウンディングボックスレグレッションネットワーク(インセプションとデフォルマブル)を導入する。
実験およびアブレーション実験により、ODTrackにインストールされた初期モジュールは、3つのベンチマークで後者を上回る性能を示した。
論文 参考訳(メタデータ) (2024-05-16T21:09:45Z) - MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining [73.81862342673894]
ファンデーションモデルは、様々な画像解釈タスクを強化することで、リモートセンシング(RS)のランドスケープを再構築した。
事前訓練されたモデルを下流のタスクに転送することは、イメージ分類やオブジェクト識別タスクとして事前訓練の定式化によるタスクの相違に遭遇する可能性がある。
SAMRSデータセット上で、セマンティックセグメンテーション、インスタンスセグメンテーション、回転オブジェクト検出を含むマルチタスクによる事前トレーニングを行う。
我々のモデルは、シーン分類、水平・回転物体検出、セマンティックセグメンテーション、変化検出など、様々なRS下流タスクに基づいて微調整される。
論文 参考訳(メタデータ) (2024-03-20T09:17:22Z) - One for All: Toward Unified Foundation Models for Earth Vision [24.358013737755822]
現在のリモートセンシング基礎モデルは、単一のモダリティまたは特定の空間解像度範囲に特化している。
空間解像度の異なる複数のデータモダリティに対して,単一の共有トランスフォーマーバックボーンを用いるOFA-Netを導入する。
提案手法は,12の異なる下流タスクに対して評価し,有望な性能を示す。
論文 参考訳(メタデータ) (2024-01-15T08:12:51Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - You Only Need Two Detectors to Achieve Multi-Modal 3D Multi-Object Tracking [9.20064374262956]
提案手法は,2次元検出器と3次元検出器のみを用いて,ロバストなトラッキングを実現する。
多くの最先端のTBDベースのマルチモーダルトラッキング手法よりも正確であることが証明されている。
論文 参考訳(メタデータ) (2023-04-18T02:45:18Z) - DIVOTrack: A Novel Dataset and Baseline Method for Cross-View
Multi-Object Tracking in DIVerse Open Scenes [74.64897845999677]
歩行者が密集したDIVerse Openのシーンを対象とした,新しいクロスビュー多目的追跡データセットを提案する。
私たちのDIVOTrackには15の異なるシナリオと953のクロスビュートラックがあります。
さらに,クロスモット(CrossMOT)という統合型共同検出・クロスビュートラッキングフレームワークを用いた新しいベースラインクロスビュートラッキング手法を提案する。
論文 参考訳(メタデータ) (2023-02-15T14:10:42Z) - End-to-end Tracking with a Multi-query Transformer [96.13468602635082]
マルチオブジェクトトラッキング(MOT)は、時間とともにシーン内のオブジェクトの位置、外観、アイデンティティを同時に推論する必要がある課題である。
本研究の目的は、トラッキング・バイ・ディテクト・アプローチを超えて、未知のオブジェクト・クラスに対してもよく機能するクラスに依存しないトラッキングへと移行することである。
論文 参考訳(メタデータ) (2022-10-26T10:19:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。