論文の概要: WaveTransformer: A Novel Architecture for Audio Captioning Based on
Learning Temporal and Time-Frequency Information
- arxiv url: http://arxiv.org/abs/2010.11098v1
- Date: Wed, 21 Oct 2020 16:02:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 01:10:00.487412
- Title: WaveTransformer: A Novel Architecture for Audio Captioning Based on
Learning Temporal and Time-Frequency Information
- Title(参考訳): wavetransformer: 時間的および時間的情報の学習に基づく音声キャプションのための新しいアーキテクチャ
- Authors: An Tran and Konstantinos Drossos and Tuomas Virtanen
- Abstract要約: 本稿では,音声における時間的・時間的パターンの活用に焦点を当てた新しいAAC手法を提案する。
音声符号化には3つの学習可能なプロセスを使用し、2つは局所的および時間的情報を抽出し、もう1つは前の2つのプロセスの出力をマージする。
これまでに報告された最も高いSPIDErは16.2から17.3に増加した。
- 参考スコア(独自算出の注目度): 20.153258692295278
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated audio captioning (AAC) is a novel task, where a method takes as an
input an audio sample and outputs a textual description (i.e. a caption) of its
contents. Most AAC methods are adapted from from image captioning of machine
translation fields. In this work we present a novel AAC novel method,
explicitly focused on the exploitation of the temporal and time-frequency
patterns in audio. We employ three learnable processes for audio encoding, two
for extracting the local and temporal information, and one to merge the output
of the previous two processes. To generate the caption, we employ the widely
used Transformer decoder. We assess our method utilizing the freely available
splits of Clotho dataset. Our results increase previously reported highest
SPIDEr to 17.3, from 16.2.
- Abstract(参考訳): 自動音声キャプション(AAC)は、音声サンプルの入力としてメソッドが受け取り、その内容のテキスト記述(すなわちキャプション)を出力する新しいタスクである。
ほとんどのAAC法は、機械翻訳場の画像キャプションから適応されている。
本研究では,音声における時間的パターンと時間的パターンの活用に焦点を当てた新しいAAC手法を提案する。
音声符号化には3つの学習可能なプロセスを使用し、2つは局所的および時間的情報を抽出し、1つは以前の2つのプロセスの出力をマージする。
キャプションを生成するために、広く使われているトランスフォーマデコーダを用いる。
本手法は,布地データセットの自由に利用可能な分割を用いて評価する。
これまでに報告された最も高いSPIDErは16.2から17.3に増加した。
関連論文リスト
- Audio-Agent: Leveraging LLMs For Audio Generation, Editing and Composition [72.22243595269389]
本稿では,テキストやビデオの入力に基づく音声生成,編集,合成のためのフレームワークであるAudio-Agentを紹介する。
VTA(Video-to-audio)タスクでは、既存のほとんどの手法では、ビデオイベントと生成されたオーディオを同期させるタイムスタンプ検出器のトレーニングが必要である。
論文 参考訳(メタデータ) (2024-10-04T11:40:53Z) - Make-An-Audio 2: Temporal-Enhanced Text-to-Audio Generation [72.7915031238824]
大規模な拡散モデルは、テキスト・トゥ・オーディオ(T2A)合成タスクで成功している。
意味的不一致や時間的一貫性の低下といった共通の問題に悩まされることが多い。
我々は,Make-an-Audioの成功に基づいて,潜伏拡散に基づくT2A法であるMake-an-Audio 2を提案する。
論文 参考訳(メタデータ) (2023-05-29T10:41:28Z) - Efficient Audio Captioning Transformer with Patchout and Text Guidance [74.59739661383726]
本稿では, [1] で提案した Patchout を利用したフルトランスフォーマーアーキテクチャを提案する。
キャプション生成は、事前訓練された分類モデルにより抽出されたテキストオーディオセットタグに部分的に条件付けされる。
提案手法は,DCASE Challenge 2022のタスク6Aで審査員賞を受賞している。
論文 参考訳(メタデータ) (2023-04-06T07:58:27Z) - VarietySound: Timbre-Controllable Video to Sound Generation via
Unsupervised Information Disentanglement [68.42632589736881]
ビデオ入力と参照音声サンプルを与えられた特定の音色で発音する作業を行う。
この課題を解決するために,対象の音声を時間情報,音響情報,背景情報という3つの構成要素にまとめる。
提案手法は,ビデオ中のイベントと高音質の音声サンプルを生成し,参照音声と高音質の類似性を示す。
論文 参考訳(メタデータ) (2022-11-19T11:12:01Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - Local Information Assisted Attention-free Decoder for Audio Captioning [52.191658157204856]
本稿では,PANNをベースとしたエンコーダを音声特徴抽出に用いるアテンションフリーデコーダを用いたAAC手法を提案する。
提案手法は,音声信号からグローバル情報とローカル情報の両方を効果的に利用することができる。
論文 参考訳(メタデータ) (2022-01-10T08:55:52Z) - Evaluating Off-the-Shelf Machine Listening and Natural Language Models
for Automated Audio Captioning [16.977616651315234]
キャプションシステムは、入力信号から様々な情報を識別し、自然言語で表現する必要がある。
トランスフォーマーを用いたキャプションによる市販モデルの性能評価を行った。
論文 参考訳(メタデータ) (2021-10-14T14:42:38Z) - CL4AC: A Contrastive Loss for Audio Captioning [43.83939284740561]
CL4AC(Contrastive Loss for Audio Captioning)と呼ばれる新しいエンコーダデコーダフレームワークを提案する。
CL4ACでは、元の音声テキストペアデータから導出される自己超越信号を用いて、音声とテキストの対応を利用する。
提案手法の有効性を示すため,Closoデータセット上で実験を行った。
論文 参考訳(メタデータ) (2021-07-21T10:13:02Z) - Temporal Sub-sampling of Audio Feature Sequences for Automated Audio
Captioning [21.603519845525483]
本稿では,音声入力シーケンスに時間的サブサンプリングを適用することで,シーケンス間の長さ差を明示的に活用することに焦点を当てたアプローチを提案する。
エンコーダの出力として固定長ベクトルを用いるシーケンス・ツー・シーケンス法を用い,エンコーダのRNN間の時間的サブサンプリングを適用した。
論文 参考訳(メタデータ) (2020-07-06T12:19:23Z) - Audio Captioning using Gated Recurrent Units [1.3960152426268766]
VGGishオーディオ埋め込みモデルは、音声キャプションタスクにおけるオーディオ埋め込みのユーザビリティを調べるために使用される。
提案アーキテクチャは、音声とテキストの入力モダリティを別々に符号化し、復号ステージの前に合成する。
実験結果から,提案したBiGRUを用いた深部モデルでは,術式よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-06-05T12:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。