論文の概要: Listen carefully and tell: an audio captioning system based on residual
learning and gammatone audio representation
- arxiv url: http://arxiv.org/abs/2006.15406v4
- Date: Wed, 8 Jul 2020 06:13:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 08:16:20.551282
- Title: Listen carefully and tell: an audio captioning system based on residual
learning and gammatone audio representation
- Title(参考訳): 注意して聞く: 残学習とガンマタン音声表現に基づく音声キャプションシステム
- Authors: Sergi Perez-Castanos, Javier Naranjo-Alcazar, Pedro Zuccarello and
Maximo Cobos
- Abstract要約: 音声を入力として受け入れ、テキスト記述として出力する際には、自動的な音声キャプションシステムを実装する必要がある。
本研究では,エンコーダ位相に基づく残差学習に基づく自動音声キャプションを提案する。
その結果,本研究で提案したフレームワークは,課題結果のベースラインシステムを超えていることがわかった。
- 参考スコア(独自算出の注目度): 4.591851728010269
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated audio captioning is machine listening task whose goal is to
describe an audio using free text. An automated audio captioning system has to
be implemented as it accepts an audio as input and outputs as textual
description, that is, the caption of the signal. This task can be useful in
many applications such as automatic content description or machine-to-machine
interaction. In this work, an automatic audio captioning based on residual
learning on the encoder phase is proposed. The encoder phase is implemented via
different Residual Networks configurations. The decoder phase (create the
caption) is run using recurrent layers plus attention mechanism. The audio
representation chosen has been Gammatone. Results show that the framework
proposed in this work surpass the baseline system in challenge results.
- Abstract(参考訳): 自動音声キャプションは、自由テキストを用いて音声を記述することを目的としている機械聴取タスクである。
音声を入力として受け取り、テキスト記述、すなわち信号のキャプションとして出力するので、自動的な音声キャプションシステムを実装する必要がある。
このタスクは、自動コンテンツ記述やマシン間インタラクションなど、多くのアプリケーションで有用である。
本研究では,エンコーダフェーズにおける残差学習に基づく音声キャプションの自動生成手法を提案する。
エンコーダフェーズは、異なる残留ネットワーク構成によって実装される。
デコーダフェーズ(キャプションの作成)は、繰り返しレイヤとアテンション機構を使用して実行される。
選ばれた音声表現はガンマトインである。
その結果,本研究で提案するフレームワークがベースラインシステムを上回ることが判明した。
関連論文リスト
- Look, Listen and Recognise: Character-Aware Audio-Visual Subtitling [62.25533750469467]
そこで本稿では,正確な音声タイムスタンプと話者識別機能を備えた,対話の完全な書き起こしを生成する音声-視覚的手法を提案する。
本手法は,Seinfeld,Fraiser,Scrubsなど,様々なテレビシットコムに対して評価を行った。
このシステムは,最新のストリーミングサービスで利用可能なビデオのアクセシビリティを向上させるために,字幕の自動生成に有用であると考えられる。
論文 参考訳(メタデータ) (2024-01-22T15:26:01Z) - Zero-shot audio captioning with audio-language model guidance and audio
context keywords [59.58331215337357]
タスク固有の訓練を必要とせず、テキストキャプション内の一般的な音声信号を要約する新しいフレームワークであるZerAuCapを提案する。
本フレームワークは,事前学習された大言語モデル(LLM)を用いて,事前学習された音声モデルによって指導されたテキストを生成し,キャプションを生成する。
提案手法は,AudioCaps と Clotho のデータセットにゼロショット音声キャプションを付加することで,最先端の音声キャプションを実現する。
論文 参考訳(メタデータ) (2023-11-14T18:55:48Z) - LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT [67.05155876895515]
LauraGPTは音声入力とテキスト入力の両方を処理する汎用言語モデルである。
内容、意味論、パラ言語学、音声信号分析に関する幅広いタスクを実行できる。
論文 参考訳(メタデータ) (2023-10-07T03:17:59Z) - Zero-Shot Audio Captioning via Audibility Guidance [57.70351255180495]
音声のキャプションのためのデシラタを3つ提案する -- (i) 生成したテキストの流布, (ii) 生成したテキストを入力オーディオに忠実さ, (iii) 可聴性。
本手法はゼロショット法であり,キャプションの実行を学習していない。
本稿では,AudioCapデータセットを用いて,聴力指導がベースラインと比較して性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:45:58Z) - Towards Generating Diverse Audio Captions via Adversarial Training [52.163818279075194]
音声キャプションシステムの多様性を向上させるために,条件付き生成対向ネットワーク(C-GAN)を提案する。
キャプションジェネレータと2つのハイブリッドディスクリミネータが競合し、共同で学習し、キャプションジェネレータは、キャプションを生成するのに使用される標準エンコーダデコーダキャプションモデルとなることができる。
その結果,提案モデルでは,最先端手法と比較して,より多様性の高いキャプションを生成できることが示唆された。
論文 参考訳(メタデータ) (2022-12-05T05:06:19Z) - Visually-Aware Audio Captioning With Adaptive Audio-Visual Attention [54.4258176885084]
曖昧な音を正確に認識する方法は、音声キャプションにとって大きな課題である。
本稿では,視覚情報を利用して不明瞭な音の物体の記述を支援する視覚認識型音声キャプションを提案する。
提案手法は,機械翻訳メトリクスの最先端結果を実現する。
論文 参考訳(メタデータ) (2022-10-28T22:45:41Z) - CL4AC: A Contrastive Loss for Audio Captioning [43.83939284740561]
CL4AC(Contrastive Loss for Audio Captioning)と呼ばれる新しいエンコーダデコーダフレームワークを提案する。
CL4ACでは、元の音声テキストペアデータから導出される自己超越信号を用いて、音声とテキストの対応を利用する。
提案手法の有効性を示すため,Closoデータセット上で実験を行った。
論文 参考訳(メタデータ) (2021-07-21T10:13:02Z) - Audio Captioning with Composition of Acoustic and Semantic Information [1.90365714903665]
本稿では,双方向Gated Recurrent Units (BiGRU) を用いたエンコーダ・デコーダアーキテクチャを提案する。
音声特徴抽出には、ログメルエネルギー機能、VGGish埋め込み、事前訓練されたオーディオニューラルネットワーク(PANN)埋め込みを用いる。
提案手法は,様々な評価指標において,最先端の音声キャプションモデルより優れている。
論文 参考訳(メタデータ) (2021-05-13T15:30:14Z) - Audio Captioning using Gated Recurrent Units [1.3960152426268766]
VGGishオーディオ埋め込みモデルは、音声キャプションタスクにおけるオーディオ埋め込みのユーザビリティを調べるために使用される。
提案アーキテクチャは、音声とテキストの入力モダリティを別々に符号化し、復号ステージの前に合成する。
実験結果から,提案したBiGRUを用いた深部モデルでは,術式よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-06-05T12:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。