論文の概要: Language-Guided Contrastive Audio-Visual Masked Autoencoder with Automatically Generated Audio-Visual-Text Triplets from Videos
- arxiv url: http://arxiv.org/abs/2507.11967v1
- Date: Wed, 16 Jul 2025 06:58:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.264493
- Title: Language-Guided Contrastive Audio-Visual Masked Autoencoder with Automatically Generated Audio-Visual-Text Triplets from Videos
- Title(参考訳): ビデオから自動生成された音声-映像-テキストトリプレットを用いた言語ガイド型音響-映像自動符号化
- Authors: Yuchi Ishikawa, Shota Nakada, Hokuto Munakata, Kazuhiro Saito, Tatsuya Komatsu, Yoshimitsu Aoki,
- Abstract要約: LG-CAV-MAEは、事前訓練されたテキストエンコーダを、コントラストのあるオーディオ視覚マスク付きオートエンコーダに統合する。
本稿では,LG-CAV-MAEをトレーニングするために,ラベルなしビデオから音声・視覚テキスト三重奏を生成する自動手法を提案する。
このアプローチは、手動のアノテーションを必要とせず、高品質な音声-視覚-テキスト三つ子を生成する。
- 参考スコア(独自算出の注目度): 16.213708405651644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose Language-Guided Contrastive Audio-Visual Masked Autoencoders (LG-CAV-MAE) to improve audio-visual representation learning. LG-CAV-MAE integrates a pretrained text encoder into contrastive audio-visual masked autoencoders, enabling the model to learn across audio, visual and text modalities. To train LG-CAV-MAE, we introduce an automatic method to generate audio-visual-text triplets from unlabeled videos. We first generate frame-level captions using an image captioning model and then apply CLAP-based filtering to ensure strong alignment between audio and captions. This approach yields high-quality audio-visual-text triplets without requiring manual annotations. We evaluate LG-CAV-MAE on audio-visual retrieval tasks, as well as an audio-visual classification task. Our method significantly outperforms existing approaches, achieving up to a 5.6% improvement in recall@10 for retrieval tasks and a 3.2% improvement for the classification task.
- Abstract(参考訳): 本稿では,Language-Guided Contrastive Audio-Visual Masked Autoencoders (LG-CAV-MAE)を提案する。
LG-CAV-MAEは、トレーニング済みのテキストエンコーダをコントラスト付きオーディオ視覚マスク付きオートエンコーダに統合し、オーディオ、ビジュアル、テキストのモダリティ間でモデルを学習できるようにする。
本稿では,LG-CAV-MAEをトレーニングするために,ラベルなしビデオから音声・視覚テキスト三重奏を生成する自動手法を提案する。
まず、画像キャプションモデルを用いてフレームレベルのキャプションを生成し、次にCLAPベースのフィルタリングを適用し、音声とキャプションの整合性を確保する。
このアプローチは、手動のアノテーションを必要とせず、高品質な音声-視覚-テキスト三つ子を生成する。
音声視覚検索タスクにおけるLG-CAV-MAEと音声視覚分類タスクについて検討した。
検索タスクはリコール@10が最大5.6%改善し,分類タスクは3.2%改善した。
関連論文リスト
- CLIP-VAD: Exploiting Vision-Language Models for Voice Activity Detection [2.110168344647122]
音声活動検出(Voice Activity Detection, VAD)は、人が話しているかどうかを自動的に判断し、発話のタイミングを識別するプロセスである。
コントラスト言語-画像事前学習(CLIP)モデルを利用した新しい手法を提案する。
提案手法は,その単純さに拘わらず,広範囲なオーディオ視覚データセットの事前学習を必要とせず,複数のオーディオ視覚法より優れる。
論文 参考訳(メタデータ) (2024-10-18T14:43:34Z) - Enhancing Automated Audio Captioning via Large Language Models with Optimized Audio Encoding [30.46616330202622]
自動音声キャプション(英: Automated Audio Casting, AAC)は、自然言語で音声を記述するための音声からテキストへのタスクである。
大規模言語モデル(LLM)の最近の進歩は、AACを改善する可能性を広げている。
提案手法は,DCASE 2023 Task 6Aの勝者よりも優れた33.0 SPIDEr-FLスコアを得る。
論文 参考訳(メタデータ) (2024-06-19T07:09:46Z) - C3LLM: Conditional Multimodal Content Generation Using Large Language Models [66.11184017840688]
C3LLMは,ビデオ・トゥ・オーディオ,音声・テキスト,テキスト・トゥ・オーディオの3つのタスクを組み合わせた新しいフレームワークである。
C3LLMはLarge Language Model (LLM) 構造を異なるモダリティを整列するためのブリッジとして適合させる。
本手法は,従来の音声理解,ビデオ音声生成,テキスト音声生成のタスクを1つの統一モデルに統合する。
論文 参考訳(メタデータ) (2024-05-25T09:10:12Z) - LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT [65.69648099999439]
Generative Pre-trained Transformer (GPT) モデルは、様々な自然言語処理タスクにおいて顕著なパフォーマンスを実現している。
音声認識, 理解, 生成のための新しい音声・テキストGPTベースのLLMであるLauraGPTを提案する。
論文 参考訳(メタデータ) (2023-10-07T03:17:59Z) - AV-CPL: Continuous Pseudo-Labeling for Audio-Visual Speech Recognition [27.58390468474957]
音声-視覚音声認識(AV-CPL)のための連続擬似ラベリングを提案する。
AV-CPLは、ラベル付きビデオとラベルなしビデオの組み合わせに基づいて、音声視覚音声認識モデルを訓練する半教師付き手法である。
提案手法は教師付きトレーニングと擬似ラベル生成の両方に同じ音声・視覚モデルを使用し,擬似ラベル生成のための外部音声認識モデルの必要性を緩和する。
論文 参考訳(メタデータ) (2023-09-29T16:57:21Z) - Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model
Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。
既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。
提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-09-28T13:26:26Z) - Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - Zero-Shot Audio Captioning via Audibility Guidance [57.70351255180495]
音声のキャプションのためのデシラタを3つ提案する -- (i) 生成したテキストの流布, (ii) 生成したテキストを入力オーディオに忠実さ, (iii) 可聴性。
本手法はゼロショット法であり,キャプションの実行を学習していない。
本稿では,AudioCapデータセットを用いて,聴力指導がベースラインと比較して性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:45:58Z) - Contrastive Audio-Visual Masked Autoencoder [85.53776628515561]
CAV-MAE(Contrastive Audio-Visual Masked Auto-Encoder)
我々の完全自己指導型CAV-MAEは、VGGSoundで65.9%の新しいSOTA精度を実現する。
論文 参考訳(メタデータ) (2022-10-02T07:29:57Z) - Evaluating Off-the-Shelf Machine Listening and Natural Language Models
for Automated Audio Captioning [16.977616651315234]
キャプションシステムは、入力信号から様々な情報を識別し、自然言語で表現する必要がある。
トランスフォーマーを用いたキャプションによる市販モデルの性能評価を行った。
論文 参考訳(メタデータ) (2021-10-14T14:42:38Z) - Unsupervised Audiovisual Synthesis via Exemplar Autoencoders [59.13989658692953]
我々は,任意の個人の入力音声を,潜在的に無限に多くの出力スピーカのオーディオ視覚ストリームに変換する教師なしのアプローチを提案する。
我々は、Exemplar Autoencodersを用いて、特定のターゲット音声の音声、スタイリスティックな韻律、視覚的外観を学習する。
論文 参考訳(メタデータ) (2020-01-13T18:56:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。