論文の概要: Temporal Sub-sampling of Audio Feature Sequences for Automated Audio
Captioning
- arxiv url: http://arxiv.org/abs/2007.02676v1
- Date: Mon, 6 Jul 2020 12:19:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-13 03:30:09.296210
- Title: Temporal Sub-sampling of Audio Feature Sequences for Automated Audio
Captioning
- Title(参考訳): 音声自動キャプションのための音声特徴列の時間サブサンプリング
- Authors: Khoa Nguyen and Konstantinos Drossos and Tuomas Virtanen
- Abstract要約: 本稿では,音声入力シーケンスに時間的サブサンプリングを適用することで,シーケンス間の長さ差を明示的に活用することに焦点を当てたアプローチを提案する。
エンコーダの出力として固定長ベクトルを用いるシーケンス・ツー・シーケンス法を用い,エンコーダのRNN間の時間的サブサンプリングを適用した。
- 参考スコア(独自算出の注目度): 21.603519845525483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio captioning is the task of automatically creating a textual description
for the contents of a general audio signal. Typical audio captioning methods
rely on deep neural networks (DNNs), where the target of the DNN is to map the
input audio sequence to an output sequence of words, i.e. the caption. Though,
the length of the textual description is considerably less than the length of
the audio signal, for example 10 words versus some thousands of audio feature
vectors. This clearly indicates that an output word corresponds to multiple
input feature vectors. In this work we present an approach that focuses on
explicitly taking advantage of this difference of lengths between sequences, by
applying a temporal sub-sampling to the audio input sequence. We employ a
sequence-to-sequence method, which uses a fixed-length vector as an output from
the encoder, and we apply temporal sub-sampling between the RNNs of the
encoder. We evaluate the benefit of our approach by employing the freely
available dataset Clotho and we evaluate the impact of different factors of
temporal sub-sampling. Our results show an improvement to all considered
metrics.
- Abstract(参考訳): 音声キャプションは、一般的な音声信号の内容のテキスト記述を自動的に作成するタスクである。
典型的な音声キャプション法はディープニューラルネットワーク(DNN)に依存しており、DNNのターゲットは入力されたオーディオシーケンスを単語の出力シーケンス、すなわちキャプションの出力シーケンスにマッピングすることである。
しかし、テキスト記述の長さは音声信号の長さよりもかなり小さく、例えば10語ほどで、数千の音声特徴ベクトルに匹敵する。
これは、出力ワードが複数の入力特徴ベクトルに対応することを示す。
本稿では,音声入力列に時間サブサンプリングを適用することにより,シーケンス間の長さの差を明示的に活用することに焦点を当てた手法を提案する。
エンコーダの出力として固定長ベクトルを用いるシーケンス・ツー・シーケンス法を用い,エンコーダのRNN間の時間的サブサンプリングを適用した。
自由に利用可能なデータセットを布地で使用することで,このアプローチの利点を評価し,時間的サブサンプリングの影響を評価する。
その結果,検討対象の指標がすべて改善された。
関連論文リスト
- TokenSplit: Using Discrete Speech Representations for Direct, Refined,
and Transcript-Conditioned Speech Separation and Recognition [51.565319173790314]
TokenSplit は Transformer アーキテクチャを使用するシーケンス・ツー・シーケンス・エンコーダ・デコーダモデルである。
また,本モデルでは,書き起こし条件付けの有無にかかわらず,分離の点で優れた性能を発揮することを示す。
また、自動音声認識(ASR)の性能を測定し、音声合成の音声サンプルを提供し、我々のモデルの有用性を実証する。
論文 参考訳(メタデータ) (2023-08-21T01:52:01Z) - Visually-Aware Audio Captioning With Adaptive Audio-Visual Attention [54.4258176885084]
曖昧な音を正確に認識する方法は、音声キャプションにとって大きな課題である。
本稿では,視覚情報を利用して不明瞭な音の物体の記述を支援する視覚認識型音声キャプションを提案する。
提案手法は,機械翻訳メトリクスの最先端結果を実現する。
論文 参考訳(メタデータ) (2022-10-28T22:45:41Z) - Play It Back: Iterative Attention for Audio Recognition [104.628661890361]
聴覚認知の重要な機能は、特徴音とそれに対応する意味を時間とともに関連付けることである。
本稿では,最も識別性の高い音に対して選択的な繰り返しを通し,終端から終端までの注意に基づくアーキテクチャを提案する。
提案手法は,3つのオーディオ分類ベンチマークにおいて常に最先端の性能を達成可能であることを示す。
論文 参考訳(メタデータ) (2022-10-20T15:03:22Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - Audio Captioning with Composition of Acoustic and Semantic Information [1.90365714903665]
本稿では,双方向Gated Recurrent Units (BiGRU) を用いたエンコーダ・デコーダアーキテクチャを提案する。
音声特徴抽出には、ログメルエネルギー機能、VGGish埋め込み、事前訓練されたオーディオニューラルネットワーク(PANN)埋め込みを用いる。
提案手法は,様々な評価指標において,最先端の音声キャプションモデルより優れている。
論文 参考訳(メタデータ) (2021-05-13T15:30:14Z) - WaveTransformer: A Novel Architecture for Audio Captioning Based on
Learning Temporal and Time-Frequency Information [20.153258692295278]
本稿では,音声における時間的・時間的パターンの活用に焦点を当てた新しいAAC手法を提案する。
音声符号化には3つの学習可能なプロセスを使用し、2つは局所的および時間的情報を抽出し、もう1つは前の2つのプロセスの出力をマージする。
これまでに報告された最も高いSPIDErは16.2から17.3に増加した。
論文 参考訳(メタデータ) (2020-10-21T16:02:25Z) - Incremental Text to Speech for Neural Sequence-to-Sequence Models using
Reinforcement Learning [60.20205278845412]
テキストから音声への現代的なアプローチでは、音声が合成される前に入力文字列全体を処理する必要がある。
このレイテンシは、同時解釈のような時間に敏感なタスクに対するそのようなモデルの適合性を制限します。
エージェントを訓練して意思決定を行うための強化学習に基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-07T11:48:05Z) - Listen carefully and tell: an audio captioning system based on residual
learning and gammatone audio representation [4.591851728010269]
音声を入力として受け入れ、テキスト記述として出力する際には、自動的な音声キャプションシステムを実装する必要がある。
本研究では,エンコーダ位相に基づく残差学習に基づく自動音声キャプションを提案する。
その結果,本研究で提案したフレームワークは,課題結果のベースラインシステムを超えていることがわかった。
論文 参考訳(メタデータ) (2020-06-27T17:16:49Z) - Audio Captioning using Gated Recurrent Units [1.3960152426268766]
VGGishオーディオ埋め込みモデルは、音声キャプションタスクにおけるオーディオ埋め込みのユーザビリティを調べるために使用される。
提案アーキテクチャは、音声とテキストの入力モダリティを別々に符号化し、復号ステージの前に合成する。
実験結果から,提案したBiGRUを用いた深部モデルでは,術式よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-06-05T12:03:12Z) - Unsupervised Audiovisual Synthesis via Exemplar Autoencoders [59.13989658692953]
我々は,任意の個人の入力音声を,潜在的に無限に多くの出力スピーカのオーディオ視覚ストリームに変換する教師なしのアプローチを提案する。
我々は、Exemplar Autoencodersを用いて、特定のターゲット音声の音声、スタイリスティックな韻律、視覚的外観を学習する。
論文 参考訳(メタデータ) (2020-01-13T18:56:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。