論文の概要: Just Functioning as a Hook for Two-Stage Referring Multi-Object Tracking
- arxiv url: http://arxiv.org/abs/2503.07516v2
- Date: Fri, 16 May 2025 02:34:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:12.466461
- Title: Just Functioning as a Hook for Two-Stage Referring Multi-Object Tracking
- Title(参考訳): 2段階参照多目的追跡のためのフックとしての機能
- Authors: Weize Li, Yunhao Du, Qixiang Yin, Zhicheng Zhao, Fei Su, Daqi Liu,
- Abstract要約: Referring Multi-Object Tracking (RMOT) は、ビデオ中の自然言語表現によって指定されたターゲット軌跡をローカライズすることを目的としている。
2段階RMOTのための新しいフック型フレームワークJustHookを提案する。
- 参考スコア(独自算出の注目度): 22.669740476582835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring Multi-Object Tracking (RMOT) aims to localize target trajectories specified by natural language expressions in videos. Existing RMOT methods mainly follow two paradigms: one-stage strategies and two-stage ones. The former jointly trains tracking with referring but suffers from substantial computational overhead. Although the latter improves efficiency, it overlooks the inherent contextual aggregation capabilities of pre-trained visual backbones and takes a detour. Meanwhile, its fixed dual-tower architecture restricts compatibility with other visual / text backbones. To address these limitations, we propose JustHook, a novel hook-like framework for two-stage RMOT, which introduces two core components: (1) a Visual Feature Hook (VFH), enabling JustHook to extract context-rich local features directly from the original visual backbone like a hook; (2) a Parallel Combined Decoder (PCD), which transforms the passive cosine similarity measurement between independent modalities into active contrastive learning within the combined feature space. The proposed JustHook not only leverages the capabilities of pre-trained models but also breaks free from the constraints of inherent modality alignment, achieving strong scalability. Extensive experiments on Refer-KITTI and Refer-KITTI-V2 demonstrate that JustHook outperforms state-of-the-art methods across diverse encoder combinations, achieving a notable 7.77\% HOTA improvement on Refer-KITTI-V2. Code will be made available soon.
- Abstract(参考訳): Referring Multi-Object Tracking (RMOT) は、ビデオ中の自然言語表現によって指定されたターゲット軌跡をローカライズすることを目的としている。
既存のRMOT法は主に1段階戦略と2段階戦略という2つのパラダイムに従っている。
前者は参照で追尾するが、かなりの計算上のオーバーヘッドに悩まされる。
後者は効率が向上するが、事前訓練された視覚バックボーンのコンテキストアグリゲーション機能を見落とし、回避する。
一方、固定されたデュアルトウワーアーキテクチャは、他のビジュアル/テキストバックボーンとの互換性を制限する。
これらの制約に対処するため、JustHookは、2段階RMOTのための新しいフックライクなフレームワークである。(1)視覚特徴フック(VFH)により、JustHookは、フックのような元の視覚的バックボーンから直接コンテキストに富んだローカル特徴を抽出できる。(2)パラレル複合デコーダ(PCD)は、独立なモーダル間の受動的コサイン類似度測定を、合成特徴空間内のアクティブコントラスト学習に変換する。
提案されたJustHookは、事前訓練されたモデルの能力を利用するだけでなく、固有のモダリティアライメントの制約から解放され、強力なスケーラビリティを実現する。
Refer-KITTIとRefer-KITTI-V2の大規模な実験により、JustHookは様々なエンコーダの組み合わせで最先端の手法より優れており、Refer-KITTI-V2では7.77\%のHOTA改善を実現している。
コードはまもなく利用可能になる。
関連論文リスト
- Cognitive Disentanglement for Referring Multi-Object Tracking [28.325814292139686]
本稿では,CDRMT(Cognitive Disentanglement for Referring Multi-Object Tracking)フレームワークを提案する。
CDRMTは人間の視覚処理システムからRMOTタスクへの"What"と"where"の経路を適応させる。
異なるベンチマークデータセットの実験では、CDRMTが最先端のメソッドよりも大幅に改善されていることが示されている。
論文 参考訳(メタデータ) (2025-03-14T15:21:54Z) - Col-OLHTR: A Novel Framework for Multimodal Online Handwritten Text Recognition [82.88856416080331]
オンライン手書き文字認識(OLHTR)は様々な用途で注目されている。
現在のアプローチは通常、OLHTRをシーケンス認識タスクとして扱い、単一のトラジェクトリまたはイメージエンコーダまたはマルチストリームエンコーダを使用する。
単ストリーム推論プロセスを維持しながら、トレーニング中にマルチモーダルな特徴を学習するコラボレーティブ学習ベースのOLHTRフレームワークCol-OLHTRを提案する。
論文 参考訳(メタデータ) (2025-02-10T02:12:24Z) - A Simple Baseline with Single-encoder for Referring Image Segmentation [14.461024566536478]
本稿では,単一エンコーダ(BEiT-3)を用いたRIS法を提案する。
単一エンコーダによる単純なベースラインは、RISベンチマークデータセット上で優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-28T04:14:01Z) - MacFormer: Semantic Segmentation with Fine Object Boundaries [38.430631361558426]
新しいセマンティックセグメンテーションアーキテクチャであるMacFormer'を導入する。
まず、学習可能なエージェントトークンを使用することで、Mutual Agent Cross-Attention(MACA)メカニズムは、エンコーダ層とデコーダ層をまたいだ機能の双方向統合を効果的に実現する。
第二に、デコーダ内の周波数拡張モジュール(FEM)は高周波および低周波成分を活用して周波数領域の特徴を高める。
MacFormerはさまざまなネットワークアーキテクチャと互換性があり、ADE20KベンチマークとCityscapesの精度と効率の両方で既存のメソッドより優れていることが示されている。
論文 参考訳(メタデータ) (2024-08-11T05:36:10Z) - Sequence Shortening for Context-Aware Machine Translation [5.803309695504831]
マルチエンコーダアーキテクチャの特殊な場合において,コントラストデータセットの精度が向上することを示す。
遅延グループと遅延選択という2つの新しい手法を導入し、ネットワークはトークンをグループ化するか、コンテキストとしてキャッシュされるトークンを選択する。
論文 参考訳(メタデータ) (2024-02-02T13:55:37Z) - VadCLIP: Adapting Vision-Language Models for Weakly Supervised Video
Anomaly Detection [58.47940430618352]
弱教師付きビデオ異常検出(WSVAD)のための新しいパラダイムであるVadCLIPを提案する。
VadCLIPは、CLIPの強度に関する視覚と言語の間のきめ細かい関連をフル活用している。
本稿では,VadCLIPが粗粒度および細粒度 WSVAD の両面において最高の性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-08-22T14:58:36Z) - SPTS v2: Single-Point Scene Text Spotting [146.98118405786445]
新たなフレームワークであるSPTS v2では,単一ポイントアノテーションを用いて高いパフォーマンスのテキストスポッティングモデルをトレーニングすることができる。
SPTS v2は、より少ないパラメータで従来の最先端のシングルポイントテキストスポッターより優れていることを示す。
実験により、シーンテキストスポッティングにおける単一点表現の潜在的好みが示唆される。
論文 参考訳(メタデータ) (2023-01-04T14:20:14Z) - Generalized Decoding for Pixel, Image, and Language [197.85760901840177]
画素レベルのセグメンテーションと言語トークンをシームレスに予測できる一般化デコードモデルであるX-Decoderを提案する。
X-Decoderは、すべてのタイプのイメージセグメンテーションと様々な視覚言語(VL)タスクをサポートする統一された方法を提供する最初の作品である。
論文 参考訳(メタデータ) (2022-12-21T18:58:41Z) - End-to-End Dense Video Captioning with Parallel Decoding [53.34238344647624]
パラレルデコーディング(PDVC)を用いたエンドツーエンドの高精細動画キャプションのための簡易かつ効果的なフレームワークを提案する。
PDVCは、ビデオをビデオの内容の全体的理解の下で、正確にいくつかのイベントに分類する。
ActivityNet CaptionsとYouCook2の実験は、PDVCが高品質なキャプション結果を生成することができることを示している。
論文 参考訳(メタデータ) (2021-08-17T17:39:15Z) - A Holistically-Guided Decoder for Deep Representation Learning with
Applications to Semantic Segmentation and Object Detection [74.88284082187462]
一般的な戦略の1つは、バックボーンネットワークに拡張畳み込みを採用し、高解像度のフィーチャーマップを抽出することです。
本稿では,高分解能なセマンティクスリッチな特徴マップを得るために紹介される,新たなホリスティック誘導デコーダを提案する。
論文 参考訳(メタデータ) (2020-12-18T10:51:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。