論文の概要: GateMOT: Q-Gated Attention for Dense Object Tracking
- arxiv url: http://arxiv.org/abs/2604.26353v1
- Date: Wed, 29 Apr 2026 07:04:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.284817
- Title: GateMOT: Q-Gated Attention for Dense Object Tracking
- Title(参考訳): GateMOT: ディエンスオブジェクト追跡のためのQ-Gatedアテンション
- Authors: Mingjin Lv, Zelin Liu, Feifei Shao, Yi-Ping Phoebe Chen, Junqing Yu, Wei Yang, Zikai Song,
- Abstract要約: GateMOTはQ-Gated Attention(Q-Attention)を中心としたオンライントラッキングフレームワーク
Gating-Qはキーの特徴を要素的に調節する確率ゲートを生成する。
GateMOTは48.4の最先端HOTA、67.8のMOTA、BEE24の64.5のIDF1を達成し、追加のDense Object Trackingベンチマークで強いパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 22.782219026711235
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: While large models demonstrate the strong representational power of vanilla attention, this core mechanism cannot be directly applied to Dense Object Tracking: its quadratic all-to-all interactions are computationally prohibitive for dense motion estimation on high-resolution features. This mismatch prevents Dense Object Tracking from fully leveraging attention-based modeling in crowded and occlusion-heavy scenes. To address this challenge, we introduce GateMOT, an online tracking framework centered on Q-Gated Attention (Q-Attention), an efficient and spatially aware attention variant. Our key idea is to repurpose the Query from a similarity-conditioning term into a learnable gating unit. This Gating-Query (Gating-Q) produces a probabilistic gate that modulates Key features in an element-wise manner, enabling explicit relevance selection instead of costly global aggregation. Built on this mechanism, parallel Q-Attention heads transform one shared feature map into task-specific yet consistent representations for detection, motion, and re-identification, yielding a tightly coupled multi-task decoder with linear-complexity gating operations. GateMOT achieves state-of-the-art HOTA of 48.4, MOTA of 67.8, and IDF1 of 64.5 on BEE24, and demonstrates strong performance on additional Dense Object Tracking benchmarks. These results show that Q-Attention is a simple, effective, and transferable building block for attention-based tracking in dense tracking scenarios.
- Abstract(参考訳): 大きなモデルはバニラ注意の強い表現力を示すが、このコアメカニズムはDense Object Trackingに直接適用することはできない。
このミスマッチにより、Dense Object Trackingは、混み合ったオクルージョンの多いシーンにおける注意に基づくモデリングを完全に活用することができない。
そこで我々は,Q-Gated Attention(Q-Attention)に着目したオンライントラッキングフレームワークであるGateMOTを紹介した。
私たちのキーとなるアイデアは、クエリを類似した条件付き用語から学習可能なゲーティングユニットに再利用することです。
このゲーティングクエリ(ゲーティングクエリ)は、キーの特徴を要素的に修飾する確率ゲートを生成し、コストのかかるグローバルアグリゲーションではなく、明示的な関連性選択を可能にする。
このメカニズムに基づいて、並列Q-Attention Headは1つの共有特徴写像を、検出、動作、再識別のためのタスク固有の一貫した表現に変換し、線形複雑ゲーティング操作を備えた密結合マルチタスクデコーダを生成する。
GateMOTは48.4の最先端HOTA、67.8のMOTA、BEE24の64.5のIDF1を達成し、追加のDense Object Trackingベンチマークで強いパフォーマンスを示している。
これらの結果から,Q-Attentionは高密度トラッキングシナリオにおける注目に基づくトラッキングのための,シンプルで効果的かつ伝達可能なビルディングブロックであることがわかった。
関連論文リスト
- COVTrack++: Learning Open-Vocabulary Multi-Object Tracking from Continuous Videos via a Synergistic Paradigm [59.26203051651017]
C-TAOはOpen-Vocabulary Multi-Object Tracking (OVMOT)のための最初の連続アノテーション付きトレーニングセットである
フレームワークボトルネックに対するCOVTrack++は,3つのモジュールによる検出とアソシエーションの双方向相互機構を実現するための相乗的フレームワークである。
TAOの実験では、新しいTAAは検証とテストセットで35.4%、30.5%に達し、新しいAssocAは4.8%、新しいLocAは5.8%向上した。
論文 参考訳(メタデータ) (2026-03-25T07:20:27Z) - IoUCert: Robustness Verification for Anchor-based Object Detectors [58.35703549470485]
IoUCertは、アンカーベースのオブジェクト検出アーキテクチャにおいて、これらのボトルネックを克服するために設計された、新しい形式的検証フレームワークである。
本手法は, SSD, YOLOv2, YOLOv3など, 現実的なアンカーベースモデルの各種入力摂動に対するロバスト性検証を可能にする。
論文 参考訳(メタデータ) (2026-03-03T14:36:46Z) - Delving into Dynamic Scene Cue-Consistency for Robust 3D Multi-Object Tracking [16.366398265001422]
3D多目的追跡は、自動運転分野において重要かつ困難な課題である。
本稿では,この原理を実現するために動的シーンCue-Consistency Tracker(DSC-Track)を提案する。
論文 参考訳(メタデータ) (2025-08-15T08:48:13Z) - Efficient Leaf Disease Classification and Segmentation using Midpoint Normalization Technique and Attention Mechanism [0.0]
画像前処理のための2段階変換手法であるミドルポイント正規化(MPN)を導入する。
分類パイプラインは、例外的なクラスバランスを維持しながら、93%の精度を達成する。
セグメンテーションタスクでは,MPNを付加した入力を用いて,U-Netアーキテクチャ内の同一の注意ブロックをシームレスに統合する。
論文 参考訳(メタデータ) (2025-05-27T15:14:04Z) - ADA-Track++: End-to-End Multi-Camera 3D Multi-Object Tracking with Alternating Detection and Association [15.161640917854363]
多視点カメラによる3D MOTのための新しいエンドツーエンドフレームワークであるADA-Track++を紹介する。
エッジ拡張型クロスアテンションに基づく学習可能なデータアソシエーションモジュールを提案する。
我々は、この関連モジュールをDTRベースの3D検出器のデコーダ層に統合する。
論文 参考訳(メタデータ) (2024-05-14T19:02:33Z) - Betrayed by Attention: A Simple yet Effective Approach for Self-supervised Video Object Segmentation [76.68301884987348]
自己教師型ビデオオブジェクトセグメンテーション(VOS)のための簡易かつ効果的なアプローチを提案する。
我々の重要な洞察は、DINO-pretrained Transformerに存在する構造的依存関係を利用して、ビデオ内の堅牢な時間分割対応を確立することである。
提案手法は,複数の教師なしVOSベンチマークにまたがる最先端性能を実証し,複雑な実世界のマルチオブジェクトビデオセグメンテーションタスクに優れることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:47:17Z) - End-to-end Tracking with a Multi-query Transformer [96.13468602635082]
マルチオブジェクトトラッキング(MOT)は、時間とともにシーン内のオブジェクトの位置、外観、アイデンティティを同時に推論する必要がある課題である。
本研究の目的は、トラッキング・バイ・ディテクト・アプローチを超えて、未知のオブジェクト・クラスに対してもよく機能するクラスに依存しないトラッキングへと移行することである。
論文 参考訳(メタデータ) (2022-10-26T10:19:37Z) - IoU-Enhanced Attention for End-to-End Task Specific Object Detection [17.617133414432836]
R-CNNは画像に密着したアンカーボックスやグリッドポイントを使わずに有望な結果が得られる。
クエリとアテンション領域の間のスパースの性質と1対1の関係のため、自己注意に大きく依存する。
本稿では,自己注意における値ルーティングの先行として,異なるボックス間でIoUを使用することを提案する。
論文 参考訳(メタデータ) (2022-09-21T14:36:18Z) - IA-MOT: Instance-Aware Multi-Object Tracking with Motion Consistency [40.354708148590696]
IA-MOT(Instance-Aware MOT)は、静止カメラまたは移動カメラで複数の物体を追跡できる。
提案手法は,CVPR 2020ワークショップにおけるBMTTチャレンジのトラック3で優勝した。
論文 参考訳(メタデータ) (2020-06-24T03:53:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。