論文の概要: Audio Difference Learning for Audio Captioning
- arxiv url: http://arxiv.org/abs/2309.08141v1
- Date: Fri, 15 Sep 2023 04:11:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 16:03:30.845896
- Title: Audio Difference Learning for Audio Captioning
- Title(参考訳): 音声キャプションのための音声差分学習
- Authors: Tatsuya Komatsu, Yusuke Fujita, Kazuya Takeda, Tomoki Toda
- Abstract要約: 本研究では,音声キャプション改善のための新しい学習パラダイムである音声差分学習を導入する。
Clotho と ESC50 のデータセットを用いた実験では,従来の手法と比較してSPIDEr のスコアが7%向上した。
- 参考スコア(独自算出の注目度): 44.55621877667949
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study introduces a novel training paradigm, audio difference learning,
for improving audio captioning. The fundamental concept of the proposed
learning method is to create a feature representation space that preserves the
relationship between audio, enabling the generation of captions that detail
intricate audio information. This method employs a reference audio along with
the input audio, both of which are transformed into feature representations via
a shared encoder. Captions are then generated from these differential features
to describe their differences. Furthermore, a unique technique is proposed that
involves mixing the input audio with additional audio, and using the additional
audio as a reference. This results in the difference between the mixed audio
and the reference audio reverting back to the original input audio. This allows
the original input's caption to be used as the caption for their difference,
eliminating the need for additional annotations for the differences. In the
experiments using the Clotho and ESC50 datasets, the proposed method
demonstrated an improvement in the SPIDEr score by 7% compared to conventional
methods.
- Abstract(参考訳): 本研究は,音声キャプション改善のための新しい学習パラダイムである音声差分学習を提案する。
提案手法の基本概念は,音声間の関係を保存し,複雑な音声情報を含むキャプションの生成を可能にする特徴表現空間を作ることである。
この方法は、入力された音声と共に参照オーディオを使用し、どちらも共有エンコーダを介して特徴表現に変換される。
キャプションはこれらの差分特徴から生成され、その差分を記述する。
さらに、入力オーディオと追加オーディオを混合し、追加オーディオを参照として使用するというユニークな手法が提案されている。
これにより、混合オーディオと参照オーディオとの差が生じ、元の入力オーディオに戻される。
これにより、元の入力のキャプションを違いのキャプションとして使用することができ、違いに対する追加アノテーションが不要になる。
Clotho と ESC50 のデータセットを用いた実験では,従来の手法と比較してSPIDEr のスコアが7%向上した。
関連論文リスト
- Audio Difference Captioning Utilizing Similarity-Discrepancy
Disentanglement [22.924746293106715]
ADCは、従来の音声キャプションが類似した音声クリップの字幕を生成する場合があり、内容の違いを記述できない。
また,一対のオーディオクリップと類似性差分アンハングメントを比較し,遅延空間の差を強調することで,差分を抽出するクロスアテンション集中型トランスフォーマーエンコーダを提案する。
AudioDiffCapsデータセットを用いた実験により,提案手法はADCタスクを効果的に解き,アテンション重みを改良し,トランスフォーマーエンコーダに表示することで差分を抽出することを示した。
論文 参考訳(メタデータ) (2023-08-23T05:13:25Z) - AKVSR: Audio Knowledge Empowered Visual Speech Recognition by
Compressing Audio Knowledge of a Pretrained Model [53.492751392755636]
本稿では、音声モダリティを用いて、視覚的モダリティの不十分な音声情報を補うために、AKVSR(AKVSR)を提案する。
提案手法の有効性を広範囲な実験により検証し,広範に使用されているLSS3データセット上で新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-08-15T06:38:38Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - Efficient Audio Captioning Transformer with Patchout and Text Guidance [74.59739661383726]
本稿では, [1] で提案した Patchout を利用したフルトランスフォーマーアーキテクチャを提案する。
キャプション生成は、事前訓練された分類モデルにより抽出されたテキストオーディオセットタグに部分的に条件付けされる。
提案手法は,DCASE Challenge 2022のタスク6Aで審査員賞を受賞している。
論文 参考訳(メタデータ) (2023-04-06T07:58:27Z) - Visually-Aware Audio Captioning With Adaptive Audio-Visual Attention [54.4258176885084]
曖昧な音を正確に認識する方法は、音声キャプションにとって大きな課題である。
本稿では,視覚情報を利用して不明瞭な音の物体の記述を支援する視覚認識型音声キャプションを提案する。
提案手法は,機械翻訳メトリクスの最先端結果を実現する。
論文 参考訳(メタデータ) (2022-10-28T22:45:41Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - Caption Feature Space Regularization for Audio Captioning [24.40864471466915]
一般的な音声キャプションモデルは、音声毎に関連付けられたキャプションを基本真実としてランダムに選択することにより、一対多の訓練を実現する。
音声キャプションのための2段階のフレームワークを提案する: (i) コントラスト学習を通して、同じオーディオに関連付けられたキャプション間の距離を減らすためにプロキシ特徴空間を構築し、 (ii) 第二段階では、プロキシ特徴空間を追加のインスペクションとして利用し、関連するすべてのキャプションに利益をもたらす方向にモデルが最適化されるように促す。
論文 参考訳(メタデータ) (2022-04-18T17:07:31Z) - Audio Captioning with Composition of Acoustic and Semantic Information [1.90365714903665]
本稿では,双方向Gated Recurrent Units (BiGRU) を用いたエンコーダ・デコーダアーキテクチャを提案する。
音声特徴抽出には、ログメルエネルギー機能、VGGish埋め込み、事前訓練されたオーディオニューラルネットワーク(PANN)埋め込みを用いる。
提案手法は,様々な評価指標において,最先端の音声キャプションモデルより優れている。
論文 参考訳(メタデータ) (2021-05-13T15:30:14Z) - Audio Captioning using Gated Recurrent Units [1.3960152426268766]
VGGishオーディオ埋め込みモデルは、音声キャプションタスクにおけるオーディオ埋め込みのユーザビリティを調べるために使用される。
提案アーキテクチャは、音声とテキストの入力モダリティを別々に符号化し、復号ステージの前に合成する。
実験結果から,提案したBiGRUを用いた深部モデルでは,術式よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-06-05T12:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。