論文の概要: TACOS: Temporally-aligned Audio CaptiOnS for Language-Audio Pretraining
- arxiv url: http://arxiv.org/abs/2505.07609v1
- Date: Mon, 12 May 2025 14:30:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.431018
- Title: TACOS: Temporally-aligned Audio CaptiOnS for Language-Audio Pretraining
- Title(参考訳): TACOS:Language-Audio Pretrainingのための一時整列オーディオキャプティオン
- Authors: Paul Primus, Florian Schmid, Gerhard Widmer,
- Abstract要約: 音声録音におけるテキスト記述と時間領域の整合を学習するフレームワイドコントラスト学習手法を提案する。
我々のモデルは,AudioSet Strongベンチマークで評価した場合,グローバルキャプションでのみ訓練されたモデルと比較して,時間的テキスト・オーディオアライメント能力が優れている。
- 参考スコア(独自算出の注目度): 3.5570874721859016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning to associate audio with textual descriptions is valuable for a range of tasks, including pretraining, zero-shot classification, audio retrieval, audio captioning, and text-conditioned audio generation. Existing contrastive language-audio pretrained models are typically trained using global, clip-level descriptions, which provide only weak temporal supervision. We hypothesize that CLAP-like language-audio models - particularly, if they are expected to produce frame-level embeddings - can benefit from a stronger temporal supervision. To confirm our hypothesis, we curate a novel dataset of approximately 12,000 audio recordings from Freesound, each annotated with single-sentence free-text descriptions linked to a specific temporal segment in an audio recording. We use large language models to clean these annotations by removing references to non-audible events, transcribed speech, typos, and annotator language bias. We further propose a frame-wise contrastive training strategy that learns to align text descriptions with temporal regions in an audio recording and demonstrate that our model has better temporal text-audio alignment abilities compared to models trained only on global captions when evaluated on the AudioSet Strong benchmark. The dataset and our source code are available on Zenodo and GitHub, respectively.
- Abstract(参考訳): 音声とテキスト記述を関連付ける学習は、事前訓練、ゼロショット分類、音声検索、音声キャプション、テキスト条件付き音声生成など、様々なタスクに有用である。
既存のコントラスト言語-オーディオ事前訓練モデルは、典型的にはグローバルなクリップレベルの記述を用いて訓練され、時間的監督が弱いだけである。
CLAPに似た言語音響モデル(特にフレームレベルの埋め込みが期待されている場合)は、より強い時間的監視の恩恵を受けることができると仮定する。
本仮説を裏付けるために,Freesound から約12,000 の音声記録からなる新しいデータセットを作成した。
大規模な言語モデルを用いてこれらのアノテーションをクリーンにし、非可聴事象、書き起こされた音声、タイポ、注釈言語バイアスへの参照を除去する。
さらに,音声記録におけるテキスト記述と時間的領域との整合性を学習し,AudioSet Strongベンチマークで評価した場合のグローバルキャプションのみにトレーニングされたモデルと比較して,我々のモデルの方が時間的テキスト・オーディオアライメント能力が高いことを示す。
データセットとソースコードはそれぞれZenodoとGitHubで利用可能です。
関連論文リスト
- AudioSetMix: Enhancing Audio-Language Datasets with LLM-Assisted Augmentations [1.2101820447447276]
近年,音声言語領域におけるマルチモーダル学習は大きな進歩を遂げている。
しかし、音声学習は、画像言語タスクと比較して、限られたデータや低品質のデータによって困難に直面している。
本手法は,音声クリップを自然言語ラベルと対応する音声信号処理操作で拡張することにより,音声キャプチャペアを体系的に生成する。
このスケーラブルな方法は、テキストおよびオーディオ関連モデルの高品質なトレーニングデータセットであるAudioSetMixを生成する。
論文 参考訳(メタデータ) (2024-05-17T21:08:58Z) - Zero-shot audio captioning with audio-language model guidance and audio
context keywords [59.58331215337357]
タスク固有の訓練を必要とせず、テキストキャプション内の一般的な音声信号を要約する新しいフレームワークであるZerAuCapを提案する。
本フレームワークは,事前学習された大言語モデル(LLM)を用いて,事前学習された音声モデルによって指導されたテキストを生成し,キャプションを生成する。
提案手法は,AudioCaps と Clotho のデータセットにゼロショット音声キャプションを付加することで,最先端の音声キャプションを実現する。
論文 参考訳(メタデータ) (2023-11-14T18:55:48Z) - AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining [46.22290575167155]
本稿では, 音声, 音楽, 音響効果生成のための同じ学習手法を用いた枠組みを提案する。
私たちのフレームワークでは、LOA(Language of Audio)と呼ばれる音声の一般的な表現を導入しています。
論文 参考訳(メタデータ) (2023-08-10T17:55:13Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文 参考訳(メタデータ) (2023-06-16T05:42:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。