論文の概要: Audio Captioning Transformer
- arxiv url: http://arxiv.org/abs/2107.09817v1
- Date: Wed, 21 Jul 2021 00:31:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-22 14:01:35.921421
- Title: Audio Captioning Transformer
- Title(参考訳): オーディオキャプション変換器
- Authors: Xinhao Mei, Xubo Liu, Qiushi Huang, Mark D. Plumbley and Wenwu Wang
- Abstract要約: 音声キャプションは、音声クリップの自然言語記述を自動的に生成することを目的としている。
ほとんどのキャプションモデルはエンコーダ-デコーダアーキテクチャに従っており、デコーダはエンコーダによって抽出された音声特徴に基づいて単語を予測する。
本稿では,エンコーダデコーダアーキテクチャに基づくフルトランスフォーマネットワークであるAudio Captioning Transformer (ACT)を提案する。
- 参考スコア(独自算出の注目度): 44.68751180694813
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio captioning aims to automatically generate a natural language
description of an audio clip. Most captioning models follow an encoder-decoder
architecture, where the decoder predicts words based on the audio features
extracted by the encoder. Convolutional neural networks (CNNs) and recurrent
neural networks (RNNs) are often used as the audio encoder. However, CNNs can
be limited in modelling temporal relationships among the time frames in an
audio signal, while RNNs can be limited in modelling the long-range
dependencies among the time frames. In this paper, we propose an Audio
Captioning Transformer (ACT), which is a full Transformer network based on an
encoder-decoder architecture and is totally convolution-free. The proposed
method has a better ability to model the global information within an audio
signal as well as capture temporal relationships between audio events. We
evaluate our model on AudioCaps, which is the largest audio captioning dataset
publicly available. Our model shows competitive performance compared to other
state-of-the-art approaches.
- Abstract(参考訳): 音声キャプションは、音声クリップの自然言語記述を自動的に生成することを目的としている。
ほとんどのキャプションモデルはエンコーダ-デコーダアーキテクチャに従っており、デコーダはエンコーダによって抽出された音声特徴に基づいて単語を予測する。
畳み込みニューラルネットワーク(CNN)と繰り返しニューラルネットワーク(RNN)は、しばしばオーディオエンコーダとして使用される。
しかし、CNNは音声信号の時間フレーム間の時間的関係をモデル化する場合に限られ、RNNは時間フレーム間の長距離依存性をモデル化する場合に限られる。
本稿では,エンコーダ・デコーダアーキテクチャに基づく完全トランスフォーマネットワークであるオーディオキャプショントランスフォーマ(act)を提案する。
提案手法は,音声信号内のグローバル情報をモデル化し,音声イベント間の時間的関係を捉えることができる。
音声キャプションデータセットとしては最大規模であるaudiocapsについて評価を行った。
我々のモデルは、他の最先端のアプローチと比較して競争性能を示している。
関連論文リスト
- SNAC: Multi-Scale Neural Audio Codec [1.0753191494611891]
マルチスケールニューラルオーディオコーデックはRVQの単純な拡張であり、量子化器は異なる時間分解能で動作することができる。
本稿では,様々な時間分解能で量子化器を動作させることができるRVQの簡易拡張であるマルチスケールニューラルオーディオコーデックを提案する。
論文 参考訳(メタデータ) (2024-10-18T12:24:05Z) - Low Frame-rate Speech Codec: a Codec Designed for Fast High-quality Speech LLM Training and Inference [10.909997817643905]
提案する低フレームレート音声符号化(LFSC: Low Frame-rate Speech Codec)は, 有限スカラー量子化と大規模言語モデルによる対角訓練を利用して, 1.89kbps, 21.5fpsの高品質音声圧縮を実現するニューラルオーディオである。
本稿では,従来のモデルに匹敵する品質を向上しつつ,テキスト音声モデルの3倍高速な推定が可能であることを実証する。
論文 参考訳(メタデータ) (2024-09-18T16:39:10Z) - Large-scale unsupervised audio pre-training for video-to-speech
synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。
本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。
次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文 参考訳(メタデータ) (2023-06-27T13:31:33Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - SoundStream: An End-to-End Neural Audio Codec [78.94923131038682]
本稿では,音声,音楽,一般音声を効率よく圧縮できる新しいニューラルオーディオシステムSoundStreamを紹介する。
SoundStreamは完全な畳み込みエンコーダ/デコーダネットワークと残留ベクトル量子化器に頼っている。
エンコーダまたはデコーダ側で、追加のレイテンシなしで、共同圧縮と拡張を行うことができます。
論文 参考訳(メタデータ) (2021-07-07T15:45:42Z) - End-to-End Video-To-Speech Synthesis using Generative Adversarial
Networks [54.43697805589634]
GAN(Generative Adversarial Networks)に基づくエンドツーエンドビデオ音声合成モデルを提案する。
本モデルは,生映像を入力として受信し,音声を生成するエンコーダ・デコーダアーキテクチャで構成されている。
このモデルは,グリッドなどの制約付きデータセットに対して,顕著なリアリズムで音声を再構成できることを示す。
論文 参考訳(メタデータ) (2021-04-27T17:12:30Z) - Transformer Transducer: One Model Unifying Streaming and Non-streaming
Speech Recognition [16.082949461807335]
本稿では,Transformer-Transducerモデルアーキテクチャと,ストリーミングおよび非ストリーミング音声認識モデルを1つのモデルに統合するためのトレーニング手法を提案する。
私たちは、このモデルを低レイテンシと高レイテンシモードで、上位層を並列に実行するYモデルアーキテクチャで実行できることを示します。
これにより、レイテンシが制限されたストリーミング音声認識結果と、精度を大幅に向上した遅延音声認識結果が得られる。
論文 参考訳(メタデータ) (2020-10-07T05:58:28Z) - Transformer Transducer: A Streamable Speech Recognition Model with
Transformer Encoders and RNN-T Loss [14.755108017449295]
本稿では,ストリーム音声認識システムで使用可能なTransformerエンコーダを用いたエンドツーエンド音声認識モデルを提案する。
自己アテンションに基づくトランスフォーマー計算ブロックは、オーディオシーケンスとラベルシーケンスの両方を独立に符号化するために使用される。
We present results on the LibriSpeech dataset shows that limiting the left context for self-attention makes decodinglytractable for streaming。
論文 参考訳(メタデータ) (2020-02-07T00:04:04Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z) - RawNet: Fast End-to-End Neural Vocoder [4.507860128918788]
RawNetは、話者依存および非依存音声合成のための自動エンコーダ構造に基づく、完全なエンドツーエンドのニューラルボコーダである。
入力されたオーディオのより高い表現をキャプチャするコーダネットワークと、サンプルバイサンプル方式でオーディオを復元する自動回帰ボイダネットワークを含む。
論文 参考訳(メタデータ) (2019-04-10T10:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。