論文の概要: A Whisper transformer for audio captioning trained with synthetic
captions and transfer learning
- arxiv url: http://arxiv.org/abs/2305.09690v1
- Date: Mon, 15 May 2023 22:20:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 18:59:16.328637
- Title: A Whisper transformer for audio captioning trained with synthetic
captions and transfer learning
- Title(参考訳): 合成キャプションと転送学習による音声キャプション学習のためのささやきトランスフォーマー
- Authors: Marek Kadl\v{c}\'ik, Adam H\'ajek, J\"urgen Kieslich, Rados{\l}aw
Winiecki
- Abstract要約: 本稿では,事前学習された音声-テキスト-Whisperモデルの使用と,合成キャプションによる事前学習に着目し,音声キャプションへのアプローチを提案する。
以上の結果から,異なる学習方法が音響キャプションモデルの性能に及ぼす影響が示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The field of audio captioning has seen significant advancements in recent
years, driven by the availability of large-scale audio datasets and
advancements in deep learning techniques. In this technical report, we present
our approach to audio captioning, focusing on the use of a pretrained
speech-to-text Whisper model and pretraining on synthetic captions. We discuss
our training procedures and present our experiments' results, which include
model size variations, dataset mixtures, and other hyperparameters. Our
findings demonstrate the impact of different training strategies on the
performance of the audio captioning model. Our code and trained models are
publicly available on GitHub and Hugging Face Hub.
- Abstract(参考訳): 近年の音声キャプションの分野は、大規模オーディオデータセットの利用可能化とディープラーニング技術の進歩により、大きな進歩を遂げている。
本稿では,事前訓練された音声-テキスト/ウィスパーモデルの使用と合成字幕の事前学習に着目し,音声キャプションへのアプローチを提案する。
トレーニング手順を議論し,モデルサイズ変動,データセット混合,その他のハイパーパラメータを含む実験結果を提示した。
本研究は,異なる学習戦略が音声キャプションモデルの性能に与える影響を示す。
私たちのコードとトレーニングされたモデルは、GitHubとHugging Face Hubで公開されています。
関連論文リスト
- EmotionCaps: Enhancing Audio Captioning Through Emotion-Augmented Data Generation [3.696171835644556]
EmotionCapsは、約12万の音声クリップと、音声景観の感情認識情報に富んだ合成記述を組み合わせた音声キャプションデータセットである。
本研究は, キャプションモデルの開発と評価のための新しい方向の提案と, キャプティングへの現在のアプローチに挑戦するものである。
論文 参考訳(メタデータ) (2024-10-15T19:57:37Z) - Generative Adversarial Training for Text-to-Speech Synthesis Based on
Raw Phonetic Input and Explicit Prosody Modelling [0.36868085124383626]
生成的対角学習を用いたエンドツーエンド音声合成システムについて述べる。
音素・音素変換のためのVocoderを明示的な音韻・ピッチ・持続時間モデルを用いて訓練する。
論文 参考訳(メタデータ) (2023-10-14T18:15:51Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文 参考訳(メタデータ) (2023-06-16T05:42:01Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - Audiovisual Masked Autoencoders [93.22646144125457]
我々は,音声視覚下層分類タスクにおいて,大幅な改善が達成できることを示す。
また,Epic Kitchens における最先端オーディオ映像の表現の伝達性について述べる。
論文 参考訳(メタデータ) (2022-12-09T17:34:53Z) - ASiT: Local-Global Audio Spectrogram vIsion Transformer for Event
Classification [42.95038619688867]
ASiTは、グループマスク付きモデル学習と自己蒸留を用いて、局所的およびグローバルな文脈情報をキャプチャする、新しい自己教師型学習フレームワークである。
我々は、音声イベント分類、キーワードスポッティング、話者識別を含む音声および音声の分類タスクにおいて、事前訓練されたモデルを評価する。
論文 参考訳(メタデータ) (2022-11-23T18:21:09Z) - Video-Guided Curriculum Learning for Spoken Video Grounding [65.49979202728167]
音声言語記述から所望のビデオ断片をローカライズすることを目的とした,新たなタスクである音声ビデオグラウンドティング(SVG)を導入する。
識別音素の修正と雑音の多い音声から映像関連情報を抽出するために,新しいビデオ指導カリキュラム学習(VGCL)を開発した。
さらに,ActivityNetをベースとした,最初の大規模音声グラウンドデータセットを収集する。
論文 参考訳(メタデータ) (2022-09-01T07:47:01Z) - Improving Natural-Language-based Audio Retrieval with Transfer Learning
and Audio & Text Augmentations [7.817685358710508]
本稿では,録音やテキストによる記述を共有音声空間に投影するシステムを提案する。
以上の結果から, 使用済み拡張戦略は過剰適合を低減し, 検索性能の向上を図っている。
さらに、AudioCapsデータセットで事前トレーニングを行うことで、さらなる改善がもたらされることを示す。
論文 参考訳(メタデータ) (2022-08-24T11:54:42Z) - Automated Audio Captioning: an Overview of Recent Progress and New
Challenges [56.98522404673527]
自動音声キャプションは、与えられた音声クリップの自然言語記述を生成することを目的とした、モーダル横断翻訳タスクである。
本稿では、既存の様々なアプローチから評価指標やデータセットまで、自動音声キャプションにおけるコントリビューションの総合的なレビューを行う。
論文 参考訳(メタデータ) (2022-05-12T08:36:35Z) - Audio Captioning using Pre-Trained Large-Scale Language Model Guided by
Audio-based Similar Caption Retrieval [28.57294189207084]
音声キャプションの目的は、入力音声を自然言語を用いてその記述に変換することである。
提案手法は音声キャプションに事前学習した言語モデルを用いることに成功している。
事前訓練したモデルベースキャプションジェネレータのオラクル性能は,スクラッチから訓練した従来の方法よりも明らかに良好であった。
論文 参考訳(メタデータ) (2020-12-14T08:27:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。