Fugu-MT 論文翻訳(概要): Solution for Temporal Sound Localisation Task of ECCV Second Perception Test Challenge 2024

論文の概要: Solution for Temporal Sound Localisation Task of ECCV Second Perception Test Challenge 2024

arxiv url: http://arxiv.org/abs/2409.19595v1
Date: Sun, 29 Sep 2024 07:28:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-05 22:18:46.555049
Title: Solution for Temporal Sound Localisation Task of ECCV Second Perception Test Challenge 2024
Title（参考訳）: ECCV第2受入テストチャレンジ2024における時間音像定位課題の解法
Authors: Haowei Gu, Weihao Zhu, Yang Yang,
Abstract要約: 本稿では,時間的音像定位作業の改善手法を提案する。事前に定義されたサウンドクラスのセットに従って、ビデオで発生する音イベントをローカライズし、分類する。私たちのアプローチは最終テストで最初に0.4925のスコアでランク付けします。
参考スコア（独自算出の注目度）: 3.4947857354806633
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This report proposes an improved method for the Temporal Sound Localisation (TSL) task, which localizes and classifies the sound events occurring in the video according to a predefined set of sound classes. The champion solution from last year's first competition has explored the TSL by fusing audio and video modalities with the same weight. Considering the TSL task aims to localize sound events, we conduct relevant experiments that demonstrated the superiority of sound features (Section 3). Based on our findings, to enhance audio modality features, we employ various models to extract audio features, such as InterVideo, CaVMAE, and VideoMAE models. Our approach ranks first in the final test with a score of 0.4925.
Abstract（参考訳）: 本報告では,ビデオ中に発生する音のイベントを,予め定義された音の集合に従って局所化し,分類するTSLタスクの改良手法を提案する。昨年の第1回大会のチャンピオンソリューションは、同じ重さでオーディオとビデオのモダリティを融合させることで、TSLを探索した。 TSLタスクは音事象の局所化を目的としており、音特徴の優越性を実証する関連実験を行っている(第3部)。この結果をもとに,InterVideo, CaVMAE, VideoMAEモデルなどの音声特徴を抽出するために,様々なモデルを用いた。私たちのアプローチは最終テストで最初に0.4925のスコアでランク付けします。

関連論文リスト

Seeing Speech and Sound: Distinguishing and Locating Audios in Visual Scenes [16.530816405275715]
本稿では,音声と非音声の両方を同時に視覚的シーン内でグラウンド化できる統一モデルを提案する。既存のアプローチは、通常、音声または非音声のどちらかを独立に、あるいはせいぜい一緒に扱うことに限定されるが、連続的に混合しない。
論文参考訳（メタデータ） (2025-03-24T16:56:04Z)
Leveraging Reverberation and Visual Depth Cues for Sound Event Localization and Detection with Distance Estimation [3.2472293599354596]
本報告では,DCASE2024タスク3の課題として,音源距離推定による音声・音声イベントの定位と検出を行うシステムについて述べる。本モデルでは,ResNet50で抽出したビデオとオーディオの埋め込みを,SELDで事前学習したオーディオエンコーダで処理するAVコンバータをベースとした。このモデルは、STARSS23データセットの開発セットのオーディオ視覚ベースラインを広いマージンで上回り、DOAEを半分にし、F1を3倍以上改善した。
論文参考訳（メタデータ） (2024-10-29T17:28:43Z)
Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning [55.2480439325792]
大規模な音声言語モデル (LALM) は、音声および音声情報の理解と推論に優れた能力を示している。これらのモデルは、既存の音のイベントを幻覚させ、音のイベントの順序を誤認し、誤って音源を帰属させるなど、依然として課題に直面している。
論文参考訳（メタデータ） (2024-10-21T15:55:27Z)
The Solution for Temporal Sound Localisation Task of ICCV 1st Perception Test Challenge 2023 [11.64675515432159]
視覚的特徴と音声的特徴を組み合わせるために,マルチモーダル融合方式を用いる。最先端の自己教師付き事前学習ネットワークを用いて高品質な視覚特徴を抽出する。同時に、音声機能は、モデルが音の開始と終了をよりよくローカライズするのに役立つ補完的な情報として機能する。
論文参考訳（メタデータ） (2024-07-01T12:52:05Z)
EAT: Self-Supervised Pre-Training with Efficient Audio Transformer [2.443213094810588]
EAT(Efficient Audio Transformer)は、画像モダリティにおけるData2vec 2.0とオーディオモダリティにおけるAudio-MAEの成功に触発されている。 Utterance-Frame Objective (UFO) は音響イベントのモデリング能力を高めるために設計された。実験の結果、EATは様々な音声関連タスクにおいて、最先端(SOTA)性能を達成することが示された。
論文参考訳（メタデータ） (2024-01-07T14:31:27Z)
AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文参考訳（メタデータ） (2023-08-23T18:20:59Z)
Unraveling Instance Associations: A Closer Look for Audio-Visual Segmentation [18.001730255429347]
オーディオ視覚セグメント化(AVS)は、音声視覚キューに基づいて、正確に音を分割する作業である。我々は,難易度と比較的偏りのない高画質な視覚的セグメンテーション・ベンチマークを構築するための新たなコスト効率戦略を提案する。既存のAVSデータセットおよび我々の新しいベンチマークで行った実験により、我々の手法は最先端(SOTA)セグメンテーションの精度を達成できた。
論文参考訳（メタデータ） (2023-04-06T09:54:06Z)
Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。 2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。 3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文参考訳（メタデータ） (2023-03-28T22:45:40Z)
Dense-Localizing Audio-Visual Events in Untrimmed Videos: A Large-Scale Benchmark and Baseline [53.07236039168652]
本研究では,未編集映像に発生するすべての音声視覚イベントを共同でローカライズし,認識することを目的とした,濃密な局所化音声視覚イベントの課題に焦点をあてる。このデータセットには、30万以上のオーディオ・ヴィジュアル・イベントを含む10万本のビデオが含まれている。次に,様々な長さの音声視覚イベントをローカライズし,それら間の依存関係をひとつのパスでキャプチャする,学習ベースの新しいフレームワークを用いてタスクを定式化する。
論文参考訳（メタデータ） (2023-03-22T22:00:17Z)
BEATs: Audio Pre-Training with Acoustic Tokenizers [77.8510930885778]
自己教師付き学習(SSL)は、ここ数年、言語、ビジョン、スピーチ、オーディオドメインで目撃されてきた。本稿では、音声変換器から双方向表現を学習するための反復型オーディオ事前学習フレームワークBEATを提案する。最初のイテレーションでは、ランダムプロジェクションを音響トークンとして使用し、マスクとラベル予測の方法でオーディオSSLモデルをトレーニングする。そこで,本研究では,事前学習あるいは微調整した音声SSLモデルから意味知識を抽出することにより,次のイテレーションのための音響トークン化装置を訓練する。
論文参考訳（メタデータ） (2022-12-18T10:41:55Z)
Dual Normalization Multitasking for Audio-Visual Sounding Object Localization [0.0]
本研究では,音の視覚的位置のあいまいさを軽減するため,新しい概念である音場オブジェクトを提案する。この新たなAVSOL問題に対処するために、デュアル正規化マルチタスクと呼ばれる新しいマルチタスクトレーニング戦略とアーキテクチャを提案する。
論文参考訳（メタデータ） (2021-06-01T02:02:52Z)
Generating Visually Aligned Sound from Videos [83.89485254543888]
自然ビデオから音を生成するタスクに焦点をあてる。音は時間的にも内容的にも視覚信号と一致しているべきです。カメラの外部で発生する音は、ビデオコンテンツから推測することはできない。
論文参考訳（メタデータ） (2020-07-14T07:51:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。