論文の概要: Just Functioning as a Hook for Two-Stage Referring Multi-Object Tracking
- arxiv url: http://arxiv.org/abs/2503.07516v3
- Date: Thu, 14 Aug 2025 05:26:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 18:02:26.803421
- Title: Just Functioning as a Hook for Two-Stage Referring Multi-Object Tracking
- Title(参考訳): 2段階参照多目的追跡のためのフックとしての機能
- Authors: Weize Li, Yunhao Du, Qixiang Yin, Zhicheng Zhao, Fei Su, Daqi Liu,
- Abstract要約: Referring Multi-Object Trackingは、自然言語表現で指定されたビデオに対象の軌跡をローカライズすることを目的としている。
本稿では,RMOTにおけるトラッキングと参照の2つのサブタスクの内在的関係を系統的に解析する。
サブタスク間のリンクを再定義するためにHookモジュールを最初に設計した新しい2段階RTTフレームワークであるJustHookを提案する。
- 参考スコア(独自算出の注目度): 22.669740476582835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring Multi-Object Tracking (RMOT) aims to localize target trajectories in videos specified by natural language expressions. Despite recent progress, the intrinsic relationship between the two subtasks of tracking and referring in RMOT has not been fully studied. In this paper, we present a systematic analysis of their interdependence, revealing that current two-stage Referring-by-Tracking (RBT) frameworks remain fundamentally limited by insufficient modeling of subtask interactions and inflexible reliance on semantic alignment modules like CLIP. To this end, we propose JustHook, a novel two-stage RBT framework where a Hook module is firstly designed to redefine the linkage between subtasks. The Hook is built centered on grid sampling at the feature-level and is used for context-aware target feature extraction. Moreover, we propose a Parallel Combined Decoder (PCD) that learns in a unified joint feature space rather than relying on pre-defined cross-modal embeddings. Our design not only enhances the interpretability and modularity but also significantly improves the generalization. Extensive experiments on Refer-KITTI, Refer-KITTI-V2, and Refer-Dance demonstrate that JustHook achieves state-of-the-art performance, improving the HOTA by +6.9\% on Refer-KITTI-V2 with superior efficiency. Code will be available soon.
- Abstract(参考訳): Referring Multi-Object Tracking (RMOT)は、自然言語表現で指定されたビデオに対象の軌跡をローカライズすることを目的としている。
近年の進歩にもかかわらず、RMOTにおける追跡と参照の2つのサブタスクの内在的関係は十分に研究されていない。
本稿では,それらの相互依存の体系的解析を行い,現在の2段階参照・追従(RBT)フレームワークは,サブタスク相互作用の不十分なモデリングとCLIPのようなセマンティックアライメントモジュールへの非フレキシブルな依存により,基本的に制限されていることを明らかにした。
この目的のためにJustHookを提案する。JustHookは2段階のRTTフレームワークで、Hookモジュールはサブタスク間のリンクを再定義するように設計されている。
Hookは機能レベルでのグリッドサンプリングを中心に構築されており、コンテキスト対応の機能抽出に使用される。
さらに、既定のクロスモーダル埋め込みに頼るのではなく、統一された結合特徴空間で学習する並列結合デコーダ(PCD)を提案する。
我々の設計は解釈可能性とモジュラリティを向上するだけでなく、一般化を著しく改善する。
Refer-KITTI、Refer-KITTI-V2、Refer-Danceの広範囲にわたる実験により、JustHookは最先端の性能を達成し、Refer-KITTI-V2のHOTAを+6.9%改善し、効率が良いことを示した。
コードはまもなく利用可能になる。
関連論文リスト
- Trokens: Semantic-Aware Relational Trajectory Tokens for Few-Shot Action Recognition [36.662223760818584]
Trokensは、トラジェクトリポイントをアクション認識のための意味認識型リレーショナルトークンに変換する新しいアプローチである。
本研究では, 軌跡のヒストグラム(Histogram of Oriented Displacements, HoD)と, 複雑な行動パターンをモデル化するための軌跡間関係(inter-trajectory relationship)により, 軌道内力学を捉える運動モデリングフレームワークを開発した。
提案手法は,これらのトラジェクトリトークンとセマンティックな特徴を効果的に組み合わせて,動作情報による外観特徴の向上と,6つの多種多様なアクション認識ベンチマークにおける最先端性能の実現を実現する。
論文 参考訳(メタデータ) (2025-08-05T17:59:58Z) - DINOv2-powered Few-Shot Semantic Segmentation: A Unified Framework via Cross-Model Distillation and 4D Correlation Mining [30.564216896513596]
セマンティックセグメンテーションは、その一般化能力によって関心が高まっている。
近年,表現の伝達性向上のための基礎モデルが提案されている。
DINOv2エンコーダと軽量セグメンタのみを備えたFS-DINOを提案する。
論文 参考訳(メタデータ) (2025-04-22T07:47:06Z) - Cognitive Disentanglement for Referring Multi-Object Tracking [28.325814292139686]
本稿では,CDRMT(Cognitive Disentanglement for Referring Multi-Object Tracking)フレームワークを提案する。
CDRMTは人間の視覚処理システムからRMOTタスクへの"What"と"where"の経路を適応させる。
異なるベンチマークデータセットの実験では、CDRMTが最先端のメソッドよりも大幅に改善されていることが示されている。
論文 参考訳(メタデータ) (2025-03-14T15:21:54Z) - Col-OLHTR: A Novel Framework for Multimodal Online Handwritten Text Recognition [82.88856416080331]
オンライン手書き文字認識(OLHTR)は様々な用途で注目されている。
現在のアプローチは通常、OLHTRをシーケンス認識タスクとして扱い、単一のトラジェクトリまたはイメージエンコーダまたはマルチストリームエンコーダを使用する。
単ストリーム推論プロセスを維持しながら、トレーニング中にマルチモーダルな特徴を学習するコラボレーティブ学習ベースのOLHTRフレームワークCol-OLHTRを提案する。
論文 参考訳(メタデータ) (2025-02-10T02:12:24Z) - Zero-Shot Skeleton-based Action Recognition with Dual Visual-Text Alignment [11.72557768532557]
ゼロショットアクション認識の鍵は、視覚的特徴をアクションカテゴリを表す意味ベクトルと整合させることにある。
提案手法は、一般的なゼロショットスケルトンに基づく動作認識ベンチマークにおいて、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-09-22T06:44:58Z) - A Simple Baseline with Single-encoder for Referring Image Segmentation [14.461024566536478]
本稿では,単一エンコーダ(BEiT-3)を用いたRIS法を提案する。
単一エンコーダによる単純なベースラインは、RISベンチマークデータセット上で優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-28T04:14:01Z) - MacFormer: Semantic Segmentation with Fine Object Boundaries [38.430631361558426]
新しいセマンティックセグメンテーションアーキテクチャであるMacFormer'を導入する。
まず、学習可能なエージェントトークンを使用することで、Mutual Agent Cross-Attention(MACA)メカニズムは、エンコーダ層とデコーダ層をまたいだ機能の双方向統合を効果的に実現する。
第二に、デコーダ内の周波数拡張モジュール(FEM)は高周波および低周波成分を活用して周波数領域の特徴を高める。
MacFormerはさまざまなネットワークアーキテクチャと互換性があり、ADE20KベンチマークとCityscapesの精度と効率の両方で既存のメソッドより優れていることが示されている。
論文 参考訳(メタデータ) (2024-08-11T05:36:10Z) - Sequence Shortening for Context-Aware Machine Translation [5.803309695504831]
マルチエンコーダアーキテクチャの特殊な場合において,コントラストデータセットの精度が向上することを示す。
遅延グループと遅延選択という2つの新しい手法を導入し、ネットワークはトークンをグループ化するか、コンテキストとしてキャッシュされるトークンを選択する。
論文 参考訳(メタデータ) (2024-02-02T13:55:37Z) - VadCLIP: Adapting Vision-Language Models for Weakly Supervised Video
Anomaly Detection [58.47940430618352]
弱教師付きビデオ異常検出(WSVAD)のための新しいパラダイムであるVadCLIPを提案する。
VadCLIPは、CLIPの強度に関する視覚と言語の間のきめ細かい関連をフル活用している。
本稿では,VadCLIPが粗粒度および細粒度 WSVAD の両面において最高の性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-08-22T14:58:36Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - SPTS v2: Single-Point Scene Text Spotting [146.98118405786445]
新たなフレームワークであるSPTS v2では,単一ポイントアノテーションを用いて高いパフォーマンスのテキストスポッティングモデルをトレーニングすることができる。
SPTS v2は、より少ないパラメータで従来の最先端のシングルポイントテキストスポッターより優れていることを示す。
実験により、シーンテキストスポッティングにおける単一点表現の潜在的好みが示唆される。
論文 参考訳(メタデータ) (2023-01-04T14:20:14Z) - Generalized Decoding for Pixel, Image, and Language [197.85760901840177]
画素レベルのセグメンテーションと言語トークンをシームレスに予測できる一般化デコードモデルであるX-Decoderを提案する。
X-Decoderは、すべてのタイプのイメージセグメンテーションと様々な視覚言語(VL)タスクをサポートする統一された方法を提供する最初の作品である。
論文 参考訳(メタデータ) (2022-12-21T18:58:41Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - Correlation-Aware Deep Tracking [83.51092789908677]
本稿では,自己/横断的意図に着想を得た,新たなターゲット依存型特徴ネットワークを提案する。
我々のネットワークは機能ネットワークの複数の層にクロスイメージの特徴相関を深く埋め込んでいる。
我々のモデルは、豊富な未ペア画像に対して柔軟に事前訓練が可能であり、既存の手法よりも顕著に高速な収束をもたらす。
論文 参考訳(メタデータ) (2022-03-03T11:53:54Z) - End-to-End Dense Video Captioning with Parallel Decoding [53.34238344647624]
パラレルデコーディング(PDVC)を用いたエンドツーエンドの高精細動画キャプションのための簡易かつ効果的なフレームワークを提案する。
PDVCは、ビデオをビデオの内容の全体的理解の下で、正確にいくつかのイベントに分類する。
ActivityNet CaptionsとYouCook2の実験は、PDVCが高品質なキャプション結果を生成することができることを示している。
論文 参考訳(メタデータ) (2021-08-17T17:39:15Z) - A Holistically-Guided Decoder for Deep Representation Learning with
Applications to Semantic Segmentation and Object Detection [74.88284082187462]
一般的な戦略の1つは、バックボーンネットワークに拡張畳み込みを採用し、高解像度のフィーチャーマップを抽出することです。
本稿では,高分解能なセマンティクスリッチな特徴マップを得るために紹介される,新たなホリスティック誘導デコーダを提案する。
論文 参考訳(メタデータ) (2020-12-18T10:51:49Z) - CompFeat: Comprehensive Feature Aggregation for Video Instance
Segmentation [67.17625278621134]
ビデオインスタンスのセグメンテーションは、特定のビデオのそれぞれのオブジェクトを検出し、セグメンテーションし、追跡する必要がある複雑なタスクです。
従来のアプローチは、オブジェクトの検出、セグメンテーション、追跡にのみシングルフレーム機能を使用します。
本稿では,時間的および空間的コンテキスト情報を用いて,フレームレベルとオブジェクトレベルでの機能を洗練する新しい包括的特徴集約アプローチ(compfeat)を提案する。
論文 参考訳(メタデータ) (2020-12-07T00:31:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。