論文の概要: Listen carefully and tell: an audio captioning system based on residual
learning and gammatone audio representation
- arxiv url: http://arxiv.org/abs/2006.15406v4
- Date: Wed, 8 Jul 2020 06:13:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 08:16:20.551282
- Title: Listen carefully and tell: an audio captioning system based on residual
learning and gammatone audio representation
- Title(参考訳): 注意して聞く: 残学習とガンマタン音声表現に基づく音声キャプションシステム
- Authors: Sergi Perez-Castanos, Javier Naranjo-Alcazar, Pedro Zuccarello and
Maximo Cobos
- Abstract要約: 音声を入力として受け入れ、テキスト記述として出力する際には、自動的な音声キャプションシステムを実装する必要がある。
本研究では,エンコーダ位相に基づく残差学習に基づく自動音声キャプションを提案する。
その結果,本研究で提案したフレームワークは,課題結果のベースラインシステムを超えていることがわかった。
- 参考スコア(独自算出の注目度): 4.591851728010269
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated audio captioning is machine listening task whose goal is to
describe an audio using free text. An automated audio captioning system has to
be implemented as it accepts an audio as input and outputs as textual
description, that is, the caption of the signal. This task can be useful in
many applications such as automatic content description or machine-to-machine
interaction. In this work, an automatic audio captioning based on residual
learning on the encoder phase is proposed. The encoder phase is implemented via
different Residual Networks configurations. The decoder phase (create the
caption) is run using recurrent layers plus attention mechanism. The audio
representation chosen has been Gammatone. Results show that the framework
proposed in this work surpass the baseline system in challenge results.
- Abstract(参考訳): 自動音声キャプションは、自由テキストを用いて音声を記述することを目的としている機械聴取タスクである。
音声を入力として受け取り、テキスト記述、すなわち信号のキャプションとして出力するので、自動的な音声キャプションシステムを実装する必要がある。
このタスクは、自動コンテンツ記述やマシン間インタラクションなど、多くのアプリケーションで有用である。
本研究では,エンコーダフェーズにおける残差学習に基づく音声キャプションの自動生成手法を提案する。
エンコーダフェーズは、異なる残留ネットワーク構成によって実装される。
デコーダフェーズ(キャプションの作成)は、繰り返しレイヤとアテンション機構を使用して実行される。
選ばれた音声表現はガンマトインである。
その結果,本研究で提案するフレームワークがベースラインシステムを上回ることが判明した。
関連論文リスト
- Improving Text-To-Audio Models with Synthetic Captions [51.19111942748637]
本研究では,テクスタイディオ言語モデルを用いて,高精度で多様な音声キャプションを大規模に合成する音声キャプションパイプラインを提案する。
このパイプラインを利用してAudioSetと命名されたAudioSetの合成キャプションのデータセットを作成し、これらの合成キャプション上でのテキスト音声モデルの事前学習の利点を評価する。
論文 参考訳(メタデータ) (2024-06-18T00:02:15Z) - Look, Listen and Recognise: Character-Aware Audio-Visual Subtitling [62.25533750469467]
そこで本稿では,正確な音声タイムスタンプと話者識別機能を備えた,対話の完全な書き起こしを生成する音声-視覚的手法を提案する。
本手法は,Seinfeld,Fraiser,Scrubsなど,様々なテレビシットコムに対して評価を行った。
このシステムは,最新のストリーミングサービスで利用可能なビデオのアクセシビリティを向上させるために,字幕の自動生成に有用であると考えられる。
論文 参考訳(メタデータ) (2024-01-22T15:26:01Z) - Zero-shot audio captioning with audio-language model guidance and audio
context keywords [59.58331215337357]
タスク固有の訓練を必要とせず、テキストキャプション内の一般的な音声信号を要約する新しいフレームワークであるZerAuCapを提案する。
本フレームワークは,事前学習された大言語モデル(LLM)を用いて,事前学習された音声モデルによって指導されたテキストを生成し,キャプションを生成する。
提案手法は,AudioCaps と Clotho のデータセットにゼロショット音声キャプションを付加することで,最先端の音声キャプションを実現する。
論文 参考訳(メタデータ) (2023-11-14T18:55:48Z) - LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT [65.69648099999439]
Generative Pre-trained Transformer (GPT) モデルは、様々な自然言語処理タスクにおいて顕著なパフォーマンスを実現している。
音声認識, 理解, 生成のための新しい音声・テキストGPTベースのLLMであるLauraGPTを提案する。
論文 参考訳(メタデータ) (2023-10-07T03:17:59Z) - Zero-Shot Audio Captioning via Audibility Guidance [57.70351255180495]
音声のキャプションのためのデシラタを3つ提案する -- (i) 生成したテキストの流布, (ii) 生成したテキストを入力オーディオに忠実さ, (iii) 可聴性。
本手法はゼロショット法であり,キャプションの実行を学習していない。
本稿では,AudioCapデータセットを用いて,聴力指導がベースラインと比較して性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:45:58Z) - Visually-Aware Audio Captioning With Adaptive Audio-Visual Attention [54.4258176885084]
曖昧な音を正確に認識する方法は、音声キャプションにとって大きな課題である。
本稿では,視覚情報を利用して不明瞭な音の物体の記述を支援する視覚認識型音声キャプションを提案する。
提案手法は,機械翻訳メトリクスの最先端結果を実現する。
論文 参考訳(メタデータ) (2022-10-28T22:45:41Z) - Audio Captioning with Composition of Acoustic and Semantic Information [1.90365714903665]
本稿では,双方向Gated Recurrent Units (BiGRU) を用いたエンコーダ・デコーダアーキテクチャを提案する。
音声特徴抽出には、ログメルエネルギー機能、VGGish埋め込み、事前訓練されたオーディオニューラルネットワーク(PANN)埋め込みを用いる。
提案手法は,様々な評価指標において,最先端の音声キャプションモデルより優れている。
論文 参考訳(メタデータ) (2021-05-13T15:30:14Z) - Audio Captioning using Gated Recurrent Units [1.3960152426268766]
VGGishオーディオ埋め込みモデルは、音声キャプションタスクにおけるオーディオ埋め込みのユーザビリティを調べるために使用される。
提案アーキテクチャは、音声とテキストの入力モダリティを別々に符号化し、復号ステージの前に合成する。
実験結果から,提案したBiGRUを用いた深部モデルでは,術式よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-06-05T12:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。