論文の概要: Tracking Objects and Activities with Attention for Temporal Sentence
Grounding
- arxiv url: http://arxiv.org/abs/2302.10813v1
- Date: Tue, 21 Feb 2023 16:42:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-22 14:16:08.659211
- Title: Tracking Objects and Activities with Attention for Temporal Sentence
Grounding
- Title(参考訳): 時間文接地における対象の追跡と注意活動
- Authors: Zeyu Xiong, Daizong Liu, Pan Zhou, Jiahao Zhu
- Abstract要約: 時間文 (TSG) は、意味的に自然言語のクエリと一致した時間セグメントを、トリミングされていないセグメントでローカライズすることを目的としている。
本稿では,(A)マルチモーダル・検索空間を生成するクロスモーダル・ターゲット・ジェネレータと(B)マルチモーダル・ターゲットの動作を追跡し,クエリ関連セグメントを予測するテンポラル・センセント・トラッカーとを含む,新しいテンポラル・センセント・トラッカー・ネットワーク(TSTNet)を提案する。
- 参考スコア(独自算出の注目度): 51.416914256782505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal sentence grounding (TSG) aims to localize the temporal segment which
is semantically aligned with a natural language query in an untrimmed
video.Most existing methods extract frame-grained features or object-grained
features by 3D ConvNet or detection network under a conventional TSG framework,
failing to capture the subtle differences between frames or to model the
spatio-temporal behavior of core persons/objects. In this paper, we introduce a
new perspective to address the TSG task by tracking pivotal objects and
activities to learn more fine-grained spatio-temporal behaviors. Specifically,
we propose a novel Temporal Sentence Tracking Network (TSTNet), which contains
(A) a Cross-modal Targets Generator to generate multi-modal templates and
search space, filtering objects and activities, and (B) a Temporal Sentence
Tracker to track multi-modal targets for modeling the targets' behavior and to
predict query-related segment. Extensive experiments and comparisons with
state-of-the-arts are conducted on challenging benchmarks: Charades-STA and
TACoS. And our TSTNet achieves the leading performance with a considerable
real-time speed.
- Abstract(参考訳): 時間文グラウンドティング(TSG)は,従来のTSGフレームワーク下での3D ConvNetや検出ネットワークを用いて,フレームの微妙な差異を捉えたり,コアパーソンやオブジェクトの時空間的挙動をモデル化したりすることで,自然言語クエリとセマンティックに整合した時間セグメントのローカライズを目的としている。
本稿では,よりきめ細かな時空間挙動を学習するための重要な対象や活動を追跡することによって,TSGタスクに対処する新たな視点を提案する。
具体的には, (a) マルチモーダルテンプレートと検索空間を生成するクロスモーダルターゲット生成器, オブジェクトとアクティビティをフィルタリングするオブジェクトとアクティビティ, (b) ターゲットの振る舞いをモデル化するためのマルチモーダルターゲットを追跡し, クエリ関連のセグメントを予測するための時間的文追跡トラッカを含む, 新たな時間的文追跡ネットワーク (tstnet) を提案する。
Charades-STA と TACoS という、挑戦的なベンチマークで大規模な実験と最先端技術との比較を行う。
そして、我々のTSTNetは、かなりリアルタイムな速度で主要なパフォーマンスを達成する。
関連論文リスト
- ClickTrack: Towards Real-time Interactive Single Object Tracking [58.52366657445601]
リアルタイムシナリオにおけるクリックインタラクションを用いた新しいパラダイムであるClickTrackを提案する。
特定のシナリオにおける曖昧さに対処するために、ポイントとオプションのテキスト情報を入力として受け入れるガイド・クリック・リファイナ(GCR)を設計した。
LaSOTとGOT-10kベンチマークの実験により、GCRと組み合わせたトラッカーがリアルタイムの対話シナリオで安定したパフォーマンスを実現することが示された。
論文 参考訳(メタデータ) (2024-11-20T10:30:33Z) - STCMOT: Spatio-Temporal Cohesion Learning for UAV-Based Multiple Object Tracking [13.269416985959404]
無人航空機(UAV)ビデオにおける複数物体追跡(MOT)は、コンピュータビジョンにおける多様な用途において重要である。
時空間結合型多目的追跡フレームワーク(STCMOT)を提案する。
歴史的埋め込み機能を用いて,ReIDの表現と検出機能を逐次的にモデル化する。
我々のフレームワークはMOTAとIDF1メトリクスで新しい最先端のパフォーマンスを設定します。
論文 参考訳(メタデータ) (2024-09-17T14:34:18Z) - Efficient Long-Short Temporal Attention Network for Unsupervised Video
Object Segmentation [23.645412918420906]
Unsupervised Video Object (VOS) は、事前知識のないビデオにおいて、一次前景オブジェクトの輪郭を識別することを目的としている。
従来の手法では空間的文脈を完全には用いておらず、リアルタイムにこの課題に取り組むことができない。
これにより,教師なしVOSタスクを包括的視点から,効率的な長短テンポラルアテンションネットワーク(LSTA)を開発することができる。
論文 参考訳(メタデータ) (2023-09-21T01:09:46Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - ProContEXT: Exploring Progressive Context Transformer for Tracking [20.35886416084831]
既存のVisual Object Tracking (VOT)は、テンプレートとして第1フレームのターゲット領域のみを取る。
これにより、フレーム間のオブジェクトの外観の変化を考慮できないため、素早く変化し、混雑するシーンでトラッキングが必然的に失敗する。
私たちはプログレッシブコンテキストでフレームワークを改訂しました。
Transformer Tracker (ProContEXT) は空間的・時間的文脈を利用して物体の動きの軌跡を予測する。
論文 参考訳(メタデータ) (2022-10-27T14:47:19Z) - End-to-end Tracking with a Multi-query Transformer [96.13468602635082]
マルチオブジェクトトラッキング(MOT)は、時間とともにシーン内のオブジェクトの位置、外観、アイデンティティを同時に推論する必要がある課題である。
本研究の目的は、トラッキング・バイ・ディテクト・アプローチを超えて、未知のオブジェクト・クラスに対してもよく機能するクラスに依存しないトラッキングへと移行することである。
論文 参考訳(メタデータ) (2022-10-26T10:19:37Z) - SpOT: Spatiotemporal Modeling for 3D Object Tracking [68.12017780034044]
3Dマルチオブジェクトトラッキングは、常にすべてのモバイル時間を特定することを目的としている。
現在の3Dトラッキング手法は、抽象化された情報と限られた歴史に依存している。
本研究では,空間的情報と時間的情報の両方を活用するシーンの全体的表現を開発する。
論文 参考訳(メタデータ) (2022-07-12T21:45:49Z) - STURE: Spatial-Temporal Mutual Representation Learning for Robust Data
Association in Online Multi-Object Tracking [7.562844934117318]
提案手法は、より区別された検出とシーケンス表現を抽出することができる。
パブリックMOTチャレンジベンチマークに適用され、様々な最先端のオンラインMOTトラッカーとよく比較される。
論文 参考訳(メタデータ) (2022-01-18T08:52:40Z) - Multi-Object Tracking and Segmentation with a Space-Time Memory Network [12.043574473965318]
トラックレットを関連づける新しいメモリベース機構に基づく多目的追跡とセグメンテーションの手法を提案する。
提案するトラッカーであるMeNToSは、特に長期データアソシエーションの問題に対処する。
論文 参考訳(メタデータ) (2021-10-21T17:13:17Z) - DS-Net: Dynamic Spatiotemporal Network for Video Salient Object
Detection [78.04869214450963]
時間情報と空間情報のより効果的な融合のための新しい動的時空間ネットワーク(DSNet)を提案する。
提案手法は最先端アルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-12-09T06:42:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。