論文の概要: Exploring Audio Cues for Enhanced Test-Time Video Model Adaptation
- arxiv url: http://arxiv.org/abs/2506.12481v1
- Date: Sat, 14 Jun 2025 12:44:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:46.294138
- Title: Exploring Audio Cues for Enhanced Test-Time Video Model Adaptation
- Title(参考訳): テスト時間ビデオモデル適応性向上のためのオーディオキューの探索
- Authors: Runhao Zeng, Qi Deng, Ronghao Zhang, Shuaicheng Niu, Jian Chen, Xiping Hu, Victor C. M. Leung,
- Abstract要約: テスト時間適応(TTA)は、テストフェーズ中に自己教師なし学習を行うことで、訓練されたモデルの一般化能力を高めることを目的としている。
本稿では,音声情報をビデオTTAに組み込む新しい手法を提案する。
提案手法は,音声による擬似ラベルを生成するために,音声のリッチなセマンティックコンテンツを活用する。
- 参考スコア(独自算出の注目度): 46.29811604867483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Test-time adaptation (TTA) aims to boost the generalization capability of a trained model by conducting self-/unsupervised learning during the testing phase. While most existing TTA methods for video primarily utilize visual supervisory signals, they often overlook the potential contribution of inherent audio data. To address this gap, we propose a novel approach that incorporates audio information into video TTA. Our method capitalizes on the rich semantic content of audio to generate audio-assisted pseudo-labels, a new concept in the context of video TTA. Specifically, we propose an audio-to-video label mapping method by first employing pre-trained audio models to classify audio signals extracted from videos and then mapping the audio-based predictions to video label spaces through large language models, thereby establishing a connection between the audio categories and video labels. To effectively leverage the generated pseudo-labels, we present a flexible adaptation cycle that determines the optimal number of adaptation iterations for each sample, based on changes in loss and consistency across different views. This enables a customized adaptation process for each sample. Experimental results on two widely used datasets (UCF101-C and Kinetics-Sounds-C), as well as on two newly constructed audio-video TTA datasets (AVE-C and AVMIT-C) with various corruption types, demonstrate the superiority of our approach. Our method consistently improves adaptation performance across different video classification models and represents a significant step forward in integrating audio information into video TTA. Code: https://github.com/keikeiqi/Audio-Assisted-TTA.
- Abstract(参考訳): テスト時間適応(TTA)は、テストフェーズ中に自己教師なし学習を行うことで、訓練されたモデルの一般化能力を高めることを目的としている。
既存のビデオのTTA手法は主に視覚的監視信号を利用するが、固有のオーディオデータの潜在的寄与を見逃すことがしばしばある。
このギャップに対処するために,音声情報をビデオTTAに組み込む新しい手法を提案する。
提案手法は,ビデオTTAの文脈における新しい概念である音声支援擬似ラベルを生成するために,音声のリッチなセマンティックコンテンツを活用する。
具体的には,ビデオから抽出した音声信号を事前学習した音声モデルを用いて分類し,大言語モデルを用いて音声に基づく予測をビデオラベル空間にマッピングすることにより,音声カテゴリとビデオラベルとの接続を確立する。
生成した擬似ラベルを効果的に活用するために、異なるビュー間の損失と一貫性の変化に基づいて、各サンプルに対して最適な適応繰り返し数を決定する柔軟な適応サイクルを提案する。
これにより、サンプルごとにカスタマイズされた適応プロセスが可能になる。
広範に使われている2つのデータセット(UCF101-CとKinetics-Sounds-C)と、様々な汚職タイプで新たに構築された2つのオーディオビデオTTAデータセット(AVE-CとAVMIT-C)に対する実験結果は、我々のアプローチの優位性を示している。
提案手法は,ビデオ分類モデル間の適応性能を継続的に改善し,音声情報をビデオTTAに統合する上で重要な一歩となる。
コード:https://github.com/keikeiqi/Audio-Assisted-TTA。
関連論文リスト
- STELLA: Continual Audio-Video Pre-training with Spatio-Temporal Localized Alignment [61.83340833859382]
様々な音声・ビデオの意味を時間とともに継続的に学習することは、音声関連推論タスクに不可欠である。
これは非時間的問題であり、オーディオとビデオのペア間のスパース時間相関と、オーディオとビデオの関係を忘れるマルチモーダル相関オーバーライトという2つの重要な課題を提起する。
本稿では,2つの新しいアイデアを取り入れた連続的なオーディオビデオ事前学習手法を提案する。
論文 参考訳(メタデータ) (2023-10-12T10:50:21Z) - Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model
Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。
既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。
提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-09-28T13:26:26Z) - Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - AudioFormer: Audio Transformer learns audio feature representations from
discrete acoustic codes [6.375996974877916]
離散音響符号の取得により音声特徴表現を学習するAudioFormerという手法を提案する。
以上の結果から,AudioFormerはモノモーダル音声分類モデルに比べて性能が大幅に向上したことが示された。
論文 参考訳(メタデータ) (2023-08-14T15:47:25Z) - CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文 参考訳(メタデータ) (2023-06-16T05:42:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。