論文の概要: EchoTrack: Auditory Referring Multi-Object Tracking for Autonomous
Driving
- arxiv url: http://arxiv.org/abs/2402.18302v1
- Date: Wed, 28 Feb 2024 12:50:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 15:09:17.632288
- Title: EchoTrack: Auditory Referring Multi-Object Tracking for Autonomous
Driving
- Title(参考訳): echotrack: 自律走行のための聴覚参照マルチオブジェクトトラッキング
- Authors: Jiacheng Lin, Jiajun Chen, Kunyu Peng, Xuan He, Zhiyong Li, Rainer
Stiefelhagen, Kailun Yang
- Abstract要約: 聴覚参照マルチオブジェクトトラッキング(AR-MOT)は、自律運転において難しい問題である。
音声やビデオのセマンティックモデリング能力が不足しているため、既存の研究は主にテキストベースの多目的追跡に焦点を当てている。
私たちは、デュアルストリーム・ビジョン・トランスフォーマーを備えたエンドツーエンドのAR-MOTフレームワークであるEchoTrackを提案しました。
- 参考スコア(独自算出の注目度): 67.82112360246025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces the task of Auditory Referring Multi-Object Tracking
(AR-MOT), which dynamically tracks specific objects in a video sequence based
on audio expressions and appears as a challenging problem in autonomous
driving. Due to the lack of semantic modeling capacity in audio and video,
existing works have mainly focused on text-based multi-object tracking, which
often comes at the cost of tracking quality, interaction efficiency, and even
the safety of assistance systems, limiting the application of such methods in
autonomous driving. In this paper, we delve into the problem of AR-MOT from the
perspective of audio-video fusion and audio-video tracking. We put forward
EchoTrack, an end-to-end AR-MOT framework with dual-stream vision transformers.
The dual streams are intertwined with our Bidirectional Frequency-domain
Cross-attention Fusion Module (Bi-FCFM), which bidirectionally fuses audio and
video features from both frequency- and spatiotemporal domains. Moreover, we
propose the Audio-visual Contrastive Tracking Learning (ACTL) regime to extract
homogeneous semantic features between expressions and visual objects by
learning homogeneous features between different audio and video objects
effectively. Aside from the architectural design, we establish the first set of
large-scale AR-MOT benchmarks, including Echo-KITTI, Echo-KITTI+, and Echo-BDD.
Extensive experiments on the established benchmarks demonstrate the
effectiveness of the proposed EchoTrack model and its components. The source
code and datasets will be made publicly available at
https://github.com/lab206/EchoTrack.
- Abstract(参考訳): 本稿では,音声表現に基づく映像列内の特定の物体を動的に追跡し,自律走行における課題として現れる音声参照多物体追跡(ar-mot)の課題について述べる。
音声やビデオのセマンティックモデリング能力の欠如により、既存の研究は主にテキストベースの多目的追跡に焦点を合わせており、品質、相互作用効率、さらには補助システムの安全性をトラッキングするコストがかかる。
本稿では,音声・ビデオ融合と音声・ビデオ追跡の観点から,AR-MOTの問題点を掘り下げる。
私たちは、デュアルストリームビジョントランスフォーマーを備えたエンドツーエンドar-motフレームワークであるechotrackを提案しました。
双方向の周波数領域クロスアテンション融合モジュール(bi-fcfm)は、周波数領域と時空間領域の両方からオーディオとビデオの機能を双方向に融合します。
さらに,音声と映像オブジェクト間の同質な特徴を効果的に学習することにより,表現と視覚オブジェクト間の同質な意味的特徴を抽出するACTL方式を提案する。
アーキテクチャ設計とは別に、Echo-KITTI、Echo-KITTI+、Echo-BDDなど、大規模なAR-MOTベンチマークの最初のセットを確立します。
確立されたベンチマークに関する大規模な実験は、提案されたEchoTrackモデルとそのコンポーネントの有効性を示している。
ソースコードとデータセットはhttps://github.com/lab206/EchoTrack.comで公開されている。
関連論文リスト
- TrackDiffusion: Multi-object Tracking Data Generation via Diffusion
Models [81.81382481184889]
TrackDiffusionは、トラックレットから連続的なビデオシーケンスを生成するように設計された新しいアーキテクチャである。
生成したビデオシーケンスを,MOT(Multi-object Tracking)システムのトレーニングに活用できることを初めて実証した。
提案手法はTrackAPの8.7とTrackAPの11.8をYTVISデータセットの_50$で改善する。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z) - Improving Audio-Visual Segmentation with Bidirectional Generation [40.78395709407226]
音声・視覚的セグメンテーションのための双方向生成フレームワークを提案する。
この枠組みは、物体の視覚的特徴と関連する音との堅牢な相関関係を確立する。
また、時間力学を扱う暗黙の体積運動推定モジュールも導入する。
論文 参考訳(メタデータ) (2023-08-16T11:20:23Z) - Referred by Multi-Modality: A Unified Temporal Transformer for Video
Object Segmentation [54.58405154065508]
ビデオオブジェクトセグメンテーションの参照のためのマルチモーダル統一時間変換器を提案する。
MUTRは、初めて統合されたフレームワークにより、DETRスタイルのトランスフォーマーを採用し、テキストまたはオーディオ参照によって指定されたビデオオブジェクトをセグメント化することができる。
変換器以降の高レベルの時間的相互作用に対して,異なるオブジェクト埋め込みのためのフレーム間特徴通信を行い,ビデオに沿って追跡するためのオブジェクトワイズ対応の改善に寄与する。
論文 参考訳(メタデータ) (2023-05-25T17:59:47Z) - Pay Self-Attention to Audio-Visual Navigation [24.18976027602831]
本研究では、コンテキスト認識型音声-視覚融合戦略を用いて、移動中の音声ターゲットの追跡を学習するためのエンドツーエンドフレームワークを提案する。
FSAAVNの精度と最先端技術との比較を徹底した実験により検証した。
論文 参考訳(メタデータ) (2022-10-04T03:42:36Z) - InterTrack: Interaction Transformer for 3D Multi-Object Tracking [9.283656931246645]
3Dマルチオブジェクトトラッキング(MOT)は、自動運転車にとって重要な問題である。
提案手法であるInterTrackは,データアソシエーションのための識別対象表現を生成する。
我々はnuScenes 3D MOTベンチマークのアプローチを検証する。
論文 参考訳(メタデータ) (2022-08-17T03:24:36Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Unified Transformer Tracker for Object Tracking [58.65901124158068]
異なるシナリオにおけるトラッキング問題に1つのパラダイムで対処するために,UTT(Unified Transformer Tracker)を提案する。
SOT(Single Object Tracking)とMOT(Multiple Object Tracking)の両方を対象とするトラックトランスフォーマーを開発した。
論文 参考訳(メタデータ) (2022-03-29T01:38:49Z) - Learnable Irrelevant Modality Dropout for Multimodal Action Recognition
on Modality-Specific Annotated Videos [10.478479158063982]
本稿では,アクション認識のための視覚特異的アノテーション付きビデオにおける音声モダリティを効果的に活用するための新しいフレームワークを提案する。
我々は、各ビデオラベルをK関連オーディオラベルにマッピングするセマンティックオーディオビデオラベル辞書(SAVLD)を構築した。
また、視覚的モダリティを効率的にモデル化する2ストリームビデオトランスも提案する。
論文 参考訳(メタデータ) (2022-03-06T17:31:06Z) - Visually Guided Sound Source Separation and Localization using
Self-Supervised Motion Representations [16.447597767676655]
入力ビデオシーケンスのソース位置をピンポイントすることを目的としている。
近年の研究では、ソースタイプの事前知識を用いて、オーディオと視覚の分離結果が顕著に示されている。
本研究では,出現と運動の手がかりを専門とする2段階アーキテクチャであるexeation and motion network (amnet)を提案する。
論文 参考訳(メタデータ) (2021-04-17T10:09:15Z) - Robust Visual Object Tracking with Two-Stream Residual Convolutional
Networks [62.836429958476735]
視覚追跡のための2ストリーム残差畳み込みネットワーク(TS-RCN)を提案する。
私たちのTS-RCNは、既存のディープラーニングベースのビジュアルトラッカーと統合することができます。
トラッキング性能をさらに向上するため、我々はResNeXtを特徴抽出バックボーンとして採用する。
論文 参考訳(メタデータ) (2020-05-13T19:05:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。