Fugu-MT 論文翻訳(概要): EchoTrack: Auditory Referring Multi-Object Tracking for Autonomous Driving

論文の概要: EchoTrack: Auditory Referring Multi-Object Tracking for Autonomous Driving

arxiv url: http://arxiv.org/abs/2402.18302v1
Date: Wed, 28 Feb 2024 12:50:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-29 15:09:17.632288
Title: EchoTrack: Auditory Referring Multi-Object Tracking for Autonomous Driving
Title（参考訳）: echotrack: 自律走行のための聴覚参照マルチオブジェクトトラッキング
Authors: Jiacheng Lin, Jiajun Chen, Kunyu Peng, Xuan He, Zhiyong Li, Rainer Stiefelhagen, Kailun Yang
Abstract要約: 聴覚参照マルチオブジェクトトラッキング(AR-MOT)は、自律運転において難しい問題である。音声やビデオのセマンティックモデリング能力が不足しているため、既存の研究は主にテキストベースの多目的追跡に焦点を当てている。私たちは、デュアルストリーム・ビジョン・トランスフォーマーを備えたエンドツーエンドのAR-MOTフレームワークであるEchoTrackを提案しました。
参考スコア（独自算出の注目度）: 67.82112360246025
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper introduces the task of Auditory Referring Multi-Object Tracking (AR-MOT), which dynamically tracks specific objects in a video sequence based on audio expressions and appears as a challenging problem in autonomous driving. Due to the lack of semantic modeling capacity in audio and video, existing works have mainly focused on text-based multi-object tracking, which often comes at the cost of tracking quality, interaction efficiency, and even the safety of assistance systems, limiting the application of such methods in autonomous driving. In this paper, we delve into the problem of AR-MOT from the perspective of audio-video fusion and audio-video tracking. We put forward EchoTrack, an end-to-end AR-MOT framework with dual-stream vision transformers. The dual streams are intertwined with our Bidirectional Frequency-domain Cross-attention Fusion Module (Bi-FCFM), which bidirectionally fuses audio and video features from both frequency- and spatiotemporal domains. Moreover, we propose the Audio-visual Contrastive Tracking Learning (ACTL) regime to extract homogeneous semantic features between expressions and visual objects by learning homogeneous features between different audio and video objects effectively. Aside from the architectural design, we establish the first set of large-scale AR-MOT benchmarks, including Echo-KITTI, Echo-KITTI+, and Echo-BDD. Extensive experiments on the established benchmarks demonstrate the effectiveness of the proposed EchoTrack model and its components. The source code and datasets will be made publicly available at https://github.com/lab206/EchoTrack.
Abstract（参考訳）: 本稿では,音声表現に基づく映像列内の特定の物体を動的に追跡し,自律走行における課題として現れる音声参照多物体追跡(ar-mot)の課題について述べる。音声やビデオのセマンティックモデリング能力の欠如により、既存の研究は主にテキストベースの多目的追跡に焦点を合わせており、品質、相互作用効率、さらには補助システムの安全性をトラッキングするコストがかかる。本稿では,音声・ビデオ融合と音声・ビデオ追跡の観点から,AR-MOTの問題点を掘り下げる。私たちは、デュアルストリームビジョントランスフォーマーを備えたエンドツーエンドar-motフレームワークであるechotrackを提案しました。双方向の周波数領域クロスアテンション融合モジュール(bi-fcfm)は、周波数領域と時空間領域の両方からオーディオとビデオの機能を双方向に融合します。さらに,音声と映像オブジェクト間の同質な特徴を効果的に学習することにより,表現と視覚オブジェクト間の同質な意味的特徴を抽出するACTL方式を提案する。アーキテクチャ設計とは別に、Echo-KITTI、Echo-KITTI+、Echo-BDDなど、大規模なAR-MOTベンチマークの最初のセットを確立します。確立されたベンチマークに関する大規模な実験は、提案されたEchoTrackモデルとそのコンポーネントの有効性を示している。ソースコードとデータセットはhttps://github.com/lab206/EchoTrack.comで公開されている。

関連論文リスト

Sounding Highlights: Dual-Pathway Audio Encoders for Audio-Visual Video Highlight Detection [3.6453477876255502]
我々は,DAViHD(Dual-Pathway AudioSums for Video Highlight Detection)という新しいフレームワークを提案する。 DAViHDは、コンテンツ理解のためのセマンティックパスと、分光時間力学を捉えるダイナミックパスで構成されている。我々は,大規模なMrHiベンチマークにおいて,最先端性能を実現する。
論文参考訳（メタデータ） (2026-02-03T07:32:56Z)
Complementary and Contrastive Learning for Audio-Visual Segmentation [74.11434759171199]
本稿では,ローカル情報とグローバル情報の両方を処理可能な新しいフレームワークであるComplementary and Contrastive Transformer(CCFormer)を提案する。提案手法は,S4, MS3, AVSSデータセットにまたがる最先端のベンチマークを新たに設定する。
論文参考訳（メタデータ） (2025-10-11T06:36:59Z)
Dynamic Multi-Target Fusion for Efficient Audio-Visual Navigation [3.3359927518257866]
効率的な音声視覚ナビゲーションのための動的マルチターゲットフュージョン(DMTF-AVN)を提案する。提案手法では,マルチターゲットアーキテクチャと改良されたTransformer機構を組み合わせることで,クロスモーダル情報をフィルタし,選択的にフューズする。 ReplicaとMatterport3Dデータセットの実験により、DMTF-AVNは、成功率(SR)、パス効率(SPL)、シーン適応(SNA)において、既存の手法よりも優れた、最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2025-09-23T09:31:00Z)
Tracking the Unstable: Appearance-Guided Motion Modeling for Robust Multi-Object Tracking in UAV-Captured Videos [58.156141601478794]
マルチオブジェクトトラッキング(UAVT)は、ビデオのフレーム間で一貫したアイデンティティを維持しながら、複数のオブジェクトを追跡することを目的としている。既存の手法は、通常、動作キューと外観を別々にモデル化し、それらの相互作用を見渡して、最適下追跡性能をもたらす。本稿では、AMC行列とMTCモジュールの2つの主要コンポーネントを通して、外観と動きの手がかりを利用するAMOTを提案する。
論文参考訳（メタデータ） (2025-08-03T12:06:47Z)
CAMELTrack: Context-Aware Multi-cue ExpLoitation for Online Multi-Object Tracking [68.24998698508344]
CAMELはコンテキスト対応型マルチキューExpLoitationのための新しいアソシエイトモジュールである。エンド・ツー・エンドの検知・バイ・トラック方式とは異なり,本手法は軽量かつ高速にトレーニングが可能であり,外部のオフ・ザ・シェルフモデルを活用することができる。提案するオンライントラッキングパイプラインであるCAMELTrackは,複数のトラッキングベンチマークで最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-05-02T13:26:23Z)
HSTrack: Bootstrap End-to-End Multi-Camera 3D Multi-object Tracking with Hybrid Supervision [34.7347336548199]
カメラベースの3Dマルチオブジェクトトラッキング(MOT)では、一般的な手法はトラッキング・バイ・クエリー・プロパゲーションのパラダイムに従っている。本稿では,HSTrackを提案する。HSTrackは,マルチタスク学習を協調して検出・追跡する新しいプラグイン・アンド・プレイ方式である。
論文参考訳（メタデータ） (2024-11-11T08:18:49Z)
VOVTrack: Exploring the Potentiality in Videos for Open-Vocabulary Object Tracking [61.56592503861093]
オープンボキャブラリオブジェクト検出(OVD)とマルチオブジェクトトラッキング(MOT)の複雑さを両立させる。 OVMOT の既存のアプローチは、OVD と MOT の方法論を別個のモジュールとして統合することが多く、主に画像中心のレンズによる問題に焦点を当てている。 VOVTrackは、MOTとビデオ中心トレーニングに関連するオブジェクト状態を統合する新しい手法であり、ビデオオブジェクト追跡の観点からこの問題に対処する。
論文参考訳（メタデータ） (2024-10-11T05:01:49Z)
STNet: Deep Audio-Visual Fusion Network for Robust Speaker Tracking [8.238662377845142]
本稿では,音声・視覚融合モデルを用いた新しい話者追跡ネットワーク(STNet)を提案する。 AV16.3とCAV3Dデータセットの実験により、提案されたSTNetベースのトラッカーは、ユニモーダルな手法と最先端のオーディオヴィジュアルなスピーカートラッカーよりも優れていることが示された。
論文参考訳（メタデータ） (2024-10-08T12:15:17Z)
TIM: A Time Interval Machine for Audio-Visual Action Recognition [64.24297230981168]
音声と視覚イベントの時間的範囲を明示的にモデル化することで、長いビデオにおける2つのモード間の相互作用に対処する。本稿では,TIM (Time Interval Machine) を提案する。我々は、EPIC-KITCHENS、Perception Test、AVEの3つの長い音声視覚ビデオデータセットでTIMをテストする。
論文参考訳（メタデータ） (2024-04-08T14:30:42Z)
Improving Audio-Visual Segmentation with Bidirectional Generation [40.78395709407226]
音声・視覚的セグメンテーションのための双方向生成フレームワークを提案する。この枠組みは、物体の視覚的特徴と関連する音との堅牢な相関関係を確立する。また、時間力学を扱う暗黙の体積運動推定モジュールも導入する。
論文参考訳（メタデータ） (2023-08-16T11:20:23Z)
Referred by Multi-Modality: A Unified Temporal Transformer for Video Object Segmentation [54.58405154065508]
ビデオオブジェクトセグメンテーションの参照のためのマルチモーダル統一時間変換器を提案する。 MUTRは、初めて統合されたフレームワークにより、DETRスタイルのトランスフォーマーを採用し、テキストまたはオーディオ参照によって指定されたビデオオブジェクトをセグメント化することができる。変換器以降の高レベルの時間的相互作用に対して,異なるオブジェクト埋め込みのためのフレーム間特徴通信を行い,ビデオに沿って追跡するためのオブジェクトワイズ対応の改善に寄与する。
論文参考訳（メタデータ） (2023-05-25T17:59:47Z)
InterTrack: Interaction Transformer for 3D Multi-Object Tracking [9.283656931246645]
3Dマルチオブジェクトトラッキング(MOT)は、自動運転車にとって重要な問題である。提案手法であるInterTrackは,データアソシエーションのための識別対象表現を生成する。我々はnuScenes 3D MOTベンチマークのアプローチを検証する。
論文参考訳（メタデータ） (2022-08-17T03:24:36Z)
Unified Transformer Tracker for Object Tracking [58.65901124158068]
異なるシナリオにおけるトラッキング問題に1つのパラダイムで対処するために,UTT(Unified Transformer Tracker)を提案する。 SOT(Single Object Tracking)とMOT(Multiple Object Tracking)の両方を対象とするトラックトランスフォーマーを開発した。
論文参考訳（メタデータ） (2022-03-29T01:38:49Z)
Distractor-Aware Fast Tracking via Dynamic Convolutions and MOT Philosophy [63.91005999481061]
実用的長期トラッカーは、典型的には3つの重要な特性を含む。効率的なモデル設計、効果的なグローバル再検出戦略、堅牢な気晴らし認識メカニズム。動的畳み込み (d-convs) と多重オブジェクト追跡 (MOT) の哲学を用いて, 注意をそらした高速トラッキングを実現するための2タスクトラッキングフレームワーク(DMTrack)を提案する。我々のトラッカーはLaSOT, OxUvA, TLP, VOT2018LT, VOT 2019LTベンチマークの最先端性能を実現し, リアルタイム3倍高速に動作させる。
論文参考訳（メタデータ） (2021-04-25T00:59:53Z)
Visually Guided Sound Source Separation and Localization using Self-Supervised Motion Representations [16.447597767676655]
入力ビデオシーケンスのソース位置をピンポイントすることを目的としている。近年の研究では、ソースタイプの事前知識を用いて、オーディオと視覚の分離結果が顕著に示されている。本研究では,出現と運動の手がかりを専門とする2段階アーキテクチャであるexeation and motion network (amnet)を提案する。
論文参考訳（メタデータ） (2021-04-17T10:09:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。