論文の概要: DeTrack: In-model Latent Denoising Learning for Visual Object Tracking
- arxiv url: http://arxiv.org/abs/2501.02467v1
- Date: Sun, 05 Jan 2025 07:28:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:07:20.107514
- Title: DeTrack: In-model Latent Denoising Learning for Visual Object Tracking
- Title(参考訳): DeTrack: ビジュアルオブジェクト追跡のためのモデル内遅延Denoising Learning
- Authors: Xinyu Zhou, Jinglun Li, Lingyi Hong, Kaixun Jiang, Pinxue Guo, Weifeng Ge, Wenqiang Zhang,
- Abstract要約: 本稿では,視覚的物体追跡問題を認知学習プロセスとして定式化するための新しいパラダイムを提案する。
拡散モデルにインスパイアされた学習は、目に見えないデータに対するモデルの堅牢性を高める。
境界ボックスにノイズを導入し、トレーニング用ノイズボックスを生成し、テストデータに対するモデルロバスト性を向上する。
- 参考スコア(独自算出の注目度): 24.993508502786998
- License:
- Abstract: Previous visual object tracking methods employ image-feature regression models or coordinate autoregression models for bounding box prediction. Image-feature regression methods heavily depend on matching results and do not utilize positional prior, while the autoregressive approach can only be trained using bounding boxes available in the training set, potentially resulting in suboptimal performance during testing with unseen data. Inspired by the diffusion model, denoising learning enhances the model's robustness to unseen data. Therefore, We introduce noise to bounding boxes, generating noisy boxes for training, thus enhancing model robustness on testing data. We propose a new paradigm to formulate the visual object tracking problem as a denoising learning process. However, tracking algorithms are usually asked to run in real-time, directly applying the diffusion model to object tracking would severely impair tracking speed. Therefore, we decompose the denoising learning process into every denoising block within a model, not by running the model multiple times, and thus we summarize the proposed paradigm as an in-model latent denoising learning process. Specifically, we propose a denoising Vision Transformer (ViT), which is composed of multiple denoising blocks. In the denoising block, template and search embeddings are projected into every denoising block as conditions. A denoising block is responsible for removing the noise in a predicted bounding box, and multiple stacked denoising blocks cooperate to accomplish the whole denoising process. Subsequently, we utilize image features and trajectory information to refine the denoised bounding box. Besides, we also utilize trajectory memory and visual memory to improve tracking stability. Experimental results validate the effectiveness of our approach, achieving competitive performance on several challenging datasets.
- Abstract(参考訳): 従来の視覚オブジェクト追跡手法では、境界ボックス予測のための画像特徴回帰モデルや座標自己回帰モデルを用いていた。
画像特徴回帰法は、マッチング結果に大きく依存し、位置前も利用しないが、自己回帰法はトレーニングセットで利用可能なバウンディングボックスでしか訓練できない。
拡散モデルにインスパイアされた学習は、目に見えないデータに対するモデルの堅牢性を高める。
そこで我々は, 境界ボックスにノイズを導入し, トレーニング用ノイズボックスを生成し, テストデータに対するモデルロバスト性を向上する。
本稿では,視覚的物体追跡問題を認知学習プロセスとして定式化するための新しいパラダイムを提案する。
しかし、追跡アルゴリズムは通常、リアルタイムで実行するよう求められ、オブジェクト追跡に拡散モデルを直接適用すると、追跡速度が著しく低下する。
そこで本研究では,モデルを複数回実行するのではなく,モデル内の全ての認知ブロックに認知学習プロセスを分解し,提案手法をモデル内遅延学習プロセスとして要約する。
具体的には、複数の聴覚ブロックからなる視覚変換器(ViT)を提案する。
デノナイジングブロックでは、テンプレートと検索の埋め込みが各デノナイジングブロックに条件として投影される。
予測されたバウンディングボックス内のノイズを取り除き、複数の積み重ねたデノーズブロックが協調して全デノーズ処理を行う。
その後、画像特徴と軌跡情報を用いて、識別された境界ボックスを洗練する。
また,トラジェクトリメモリとビジュアルメモリを用いてトラジェクトリの安定性を向上させる。
実験の結果,提案手法の有効性を検証し,いくつかの挑戦的データセット上での競合性能を検証した。
関連論文リスト
- ConsistencyDet: A Robust Object Detector with a Denoising Paradigm of Consistency Model [28.193325656555803]
本稿では,物体検出を認知拡散過程として記述するための新しいフレームワークを提案する。
ConsistencyDetと呼ばれるこのフレームワークは、Consistency Modelとして知られる革新的な概念を活用している。
我々は、ConsistencyDetがパフォーマンス指標で他の最先端検出器を上回っていることを示す。
論文 参考訳(メタデータ) (2024-04-11T14:08:45Z) - DeNoising-MOT: Towards Multiple Object Tracking with Severe Occlusions [52.63323657077447]
DNMOTは、複数のオブジェクト追跡のためのエンドツーエンドのトレーニング可能なDeNoising Transformerである。
具体的には、トレーニング中にノイズを伴って軌道を拡大し、エンコーダ・デコーダアーキテクチャのデノイング過程をモデルに学習させる。
我々はMOT17,MOT20,DanceTrackのデータセットについて広範な実験を行い,実験結果から,提案手法が従来の最先端手法よりも明確なマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-09-09T04:40:01Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Self2Self+: Single-Image Denoising with Self-Supervised Learning and
Image Quality Assessment Loss [4.035753155957699]
提案手法は,合成および実世界の両方のデータセット上で,最先端の復調性能を実現する。
このことは,様々なノイズ除去タスクに対する潜在的な解決策として,本手法の有効性と実用性を強調している。
論文 参考訳(メタデータ) (2023-07-20T08:38:01Z) - Masked Image Training for Generalizable Deep Image Denoising [53.03126421917465]
本稿では,デノナイジングネットワークの一般化性能を高めるための新しい手法を提案する。
提案手法では,入力画像のランダムなピクセルをマスキングし,学習中に欠落した情報を再構成する。
提案手法は,他のディープラーニングモデルよりも優れた一般化能力を示し,実世界のシナリオに直接適用可能である。
論文 参考訳(メタデータ) (2023-03-23T09:33:44Z) - Enhancing convolutional neural network generalizability via low-rank weight approximation [6.763245393373041]
十分なノイズ処理は、画像処理にとって重要な第一歩であることが多い。
ディープニューラルネットワーク(DNN)は画像のノイズ化に広く利用されている。
本研究では,タッカー低ランクテンソル近似に基づく自己教師付き画像復調フレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-26T14:11:05Z) - IDR: Self-Supervised Image Denoising via Iterative Data Refinement [66.5510583957863]
本稿では,最先端のデノナイジング性能を実現するために,教師なしの実用的なデノナイジング手法を提案する。
本手法では, 1つのノイズ画像と1つのノイズモデルしか必要とせず, 実際の生画像に容易にアクセス可能である。
実世界のアプリケーションにおける生画像復調性能を評価するため,500シーンのシーンを含む高品質な生画像データセットSenseNoise-500を構築した。
論文 参考訳(メタデータ) (2021-11-29T07:22:53Z) - Learning Spatial and Spatio-Temporal Pixel Aggregations for Image and
Video Denoising [104.59305271099967]
ピクセル集計ネットワークを提示し、画像デノイジングのためのピクセルサンプリングと平均戦略を学びます。
時間空間にまたがるサンプル画素をビデオデノナイズするための画素集約ネットワークを開発した。
本手法は,動的シーンにおける大きな動きに起因する誤認問題を解決することができる。
論文 参考訳(メタデータ) (2021-01-26T13:00:46Z) - Self-Supervised Fast Adaptation for Denoising via Meta-Learning [28.057705167363327]
本稿では,最先端の教師付き復調手法を大幅に上回る新しい復調手法を提案する。
提案手法は, パラメータを追加することなく, 最先端の復調ネットワークに容易に適用可能であることを示す。
論文 参考訳(メタデータ) (2020-01-09T09:40:53Z) - Variational Denoising Network: Toward Blind Noise Modeling and Removal [59.36166491196973]
ブラインド画像のデノイングはコンピュータビジョンにおいて重要な問題であるが、非常に難しい問題である。
本稿では,ノイズ推定と画像デノーミングを併用した新しい変分推論手法を提案する。
論文 参考訳(メタデータ) (2019-08-29T15:54:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。