論文の概要: TIM: A Time Interval Machine for Audio-Visual Action Recognition
- arxiv url: http://arxiv.org/abs/2404.05559v1
- Date: Mon, 8 Apr 2024 14:30:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 14:05:34.615384
- Title: TIM: A Time Interval Machine for Audio-Visual Action Recognition
- Title(参考訳): TIM:オーディオ・ビジュアル・アクション認識のためのタイムインターバルマシン
- Authors: Jacob Chalk, Jaesung Huh, Evangelos Kazakos, Andrew Zisserman, Dima Damen,
- Abstract要約: 音声と視覚イベントの時間的範囲を明示的にモデル化することで、長いビデオにおける2つのモード間の相互作用に対処する。
本稿では,TIM (Time Interval Machine) を提案する。
我々は、EPIC-KITCHENS、Perception Test、AVEの3つの長い音声視覚ビデオデータセットでTIMをテストする。
- 参考スコア(独自算出の注目度): 64.24297230981168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diverse actions give rise to rich audio-visual signals in long videos. Recent works showcase that the two modalities of audio and video exhibit different temporal extents of events and distinct labels. We address the interplay between the two modalities in long videos by explicitly modelling the temporal extents of audio and visual events. We propose the Time Interval Machine (TIM) where a modality-specific time interval poses as a query to a transformer encoder that ingests a long video input. The encoder then attends to the specified interval, as well as the surrounding context in both modalities, in order to recognise the ongoing action. We test TIM on three long audio-visual video datasets: EPIC-KITCHENS, Perception Test, and AVE, reporting state-of-the-art (SOTA) for recognition. On EPIC-KITCHENS, we beat previous SOTA that utilises LLMs and significantly larger pre-training by 2.9% top-1 action recognition accuracy. Additionally, we show that TIM can be adapted for action detection, using dense multi-scale interval queries, outperforming SOTA on EPIC-KITCHENS-100 for most metrics, and showing strong performance on the Perception Test. Our ablations show the critical role of integrating the two modalities and modelling their time intervals in achieving this performance. Code and models at: https://github.com/JacobChalk/TIM
- Abstract(参考訳): 様々なアクションは、長いビデオでリッチなオーディオ視覚信号を生み出す。
近年の研究では、音声とビデオの2つのモードが、事象の時間的範囲と異なるラベルを示すことが示されている。
音声と視覚イベントの時間的範囲を明示的にモデル化することで、長いビデオにおける2つのモード間の相互作用に対処する。
本稿では,TIM(Time Interval Machine)を提案する。このTIM(Time Interval Machine)は,ビデオ入力を長時間入力するトランスフォーマーエンコーダに対して,モダリティ固有の時間間隔をクエリとして処理する。
エンコーダは、進行中の動作を認識するために、指定された間隔と、両方のモードにおける周囲のコンテキストに出席する。
我々は、EPIC-KITCHENS、Perception Test、AVEの3つの長い音声視覚ビデオデータセット上でTIMをテストし、認識のための最先端(SOTA)を報告した。
EPIC-KITCHENSでは,従来のSOTAを2.9%のTop-1動作認識精度で,LLMとかなり大きな事前訓練を施した。
さらに,TIMは,高密度なマルチスケール間隔クエリを用いて動作検出に適応し,EPIC-KITCHENS-100上でのSOTAよりも高い性能を示し,知覚テストでは高い性能を示した。
この2つのモダリティを統合し、そのパフォーマンスを達成するための時間間隔をモデル化する上で重要な役割を担っている。
コードとモデル:https://github.com/JacobChalk/TIM
関連論文リスト
- OMCAT: Omni Context Aware Transformer [27.674943980306423]
OCTAVは、オーディオとビデオ間のイベント遷移をキャプチャするために設計された、新しいデータセットである。
OMCATはRoTEを活用する強力なモデルであり、時間依存タスクにおける時間的グラウンドリングと計算効率を向上させる。
本稿では,AVQA(Audio-Visual Question Answering)タスクとOCTAVベンチマークを用いて,時間的推論とモーダルアライメントの大幅な向上を示す。
論文 参考訳(メタデータ) (2024-10-15T23:16:28Z) - Harnessing Temporal Causality for Advanced Temporal Action Detection [53.654457142657236]
本稿では,因果的注意と因果的マンバを組み合わせたCausalTADを提案する。
Ego4D Challenge 2024では,EPIC-Kitchens Challenge 2024では行動認識,行動検出,音声によるインタラクション検出トラックで1位,Ego4D Challenge 2024ではMoment Queriesトラックで1位にランクインした。
論文 参考訳(メタデータ) (2024-07-25T06:03:02Z) - EchoTrack: Auditory Referring Multi-Object Tracking for Autonomous Driving [64.58258341591929]
聴覚参照マルチオブジェクトトラッキング(AR-MOT)は、自律運転において難しい問題である。
私たちは、デュアルストリーム・ビジョン・トランスフォーマーを備えたエンドツーエンドのAR-MOTフレームワークであるEchoTrackを提案しました。
大規模AR-MOTベンチマークの最初のセットを確立する。
論文 参考訳(メタデータ) (2024-02-28T12:50:16Z) - Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities [67.89368528234394]
マルチモーダル学習の主な課題の1つは、異質なモダリティを組み合わせる必要があることである。
ビデオとオーディオはテキストよりもはるかに高いレートで取得され、ほぼ時間内に整列される。
我々の手法は、確立されたマルチモーダルベンチマークの最先端性を達成し、はるかに大きなモデルより優れている。
論文 参考訳(メタデータ) (2023-11-09T19:15:12Z) - Audio-Visual Instance Segmentation [14.10809424760213]
音声視覚インスタンスセグメンテーション(AVIS)と呼ばれる新しいマルチモーダルタスクを提案する。
AVISは、可聴ビデオ中の個々のサウンドオブジェクトのインスタンスを同時に識別し、セグメンテーションし、追跡することを目的としている。
AVISegという高品質なベンチマークを導入し、926の長ビデオで26のセマンティックカテゴリから90K以上のインスタンスマスクを含む。
論文 参考訳(メタデータ) (2023-10-28T13:37:52Z) - TMac: Temporal Multi-Modal Graph Learning for Acoustic Event
Classification [60.038979555455775]
本稿では,TMacと呼ばれる音響事象分類のための時間多重モーダルグラフ学習法を提案する。
特に,音響イベント毎に時間グラフを構築し,音声データと映像データを複数のセグメントに分割する。
いくつかの実験により、TMacは他のSOTAモデルよりも性能が優れていることを示した。
論文 参考訳(メタデータ) (2023-09-21T07:39:08Z) - End-To-End Audiovisual Feature Fusion for Active Speaker Detection [7.631698269792165]
本研究は,VGG-Mによる画像から抽出した特徴と,音声波形から抽出したMel周波数Cepstrum係数とを融合した新しい2ストリームエンドツーエンドフレームワークを提案する。
我々の最高の性能モデルは88.929%の精度を達成した。
論文 参考訳(メタデータ) (2022-07-27T10:25:59Z) - Slow-Fast Visual Tempo Learning for Video-based Action Recognition [78.3820439082979]
アクション・ビジュアル・テンポ(Action visual tempo)は、アクションのダイナミクスと時間スケールを特徴付ける。
以前の方法は、複数のレートで生のビデオをサンプリングするか、階層的にバックボーンの特徴をサンプリングすることによって、視覚的テンポをキャプチャする。
単一層における低レベルバックボーン特徴からアクション・テンポを抽出するための時間相関モジュール(TCM)を提案する。
論文 参考訳(メタデータ) (2022-02-24T14:20:04Z) - Audio2Gestures: Generating Diverse Gestures from Speech Audio with
Conditional Variational Autoencoders [29.658535633701035]
本稿では,一対多の音声-動画像マッピングを明示的にモデル化する条件付き変分オートエンコーダ(VAE)を提案する。
本手法は,最先端の手法よりも現実的で多様な動作を定量的に,質的に生成することを示す。
論文 参考訳(メタデータ) (2021-08-15T11:15:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。