論文の概要: Towards Generating Diverse Audio Captions via Adversarial Training
- arxiv url: http://arxiv.org/abs/2212.02033v1
- Date: Mon, 5 Dec 2022 05:06:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 18:45:04.474767
- Title: Towards Generating Diverse Audio Captions via Adversarial Training
- Title(参考訳): 逆行訓練による多様な音声キャプション作成に向けて
- Authors: Xinhao Mei, Xubo Liu, Jianyuan Sun, Mark D. Plumbley and Wenwu Wang
- Abstract要約: 音声キャプションシステムの多様性を向上させるために,条件付き生成対向ネットワーク(C-GAN)を提案する。
キャプションジェネレータと2つのハイブリッドディスクリミネータが競合し、共同で学習し、キャプションジェネレータは、キャプションを生成するのに使用される標準エンコーダデコーダキャプションモデルとなることができる。
その結果,提案モデルでは,最先端手法と比較して,より多様性の高いキャプションを生成できることが示唆された。
- 参考スコア(独自算出の注目度): 52.163818279075194
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Automated audio captioning is a cross-modal translation task for describing
the content of audio clips with natural language sentences. This task has
attracted increasing attention and substantial progress has been made in recent
years. Captions generated by existing models are generally faithful to the
content of audio clips, however, these machine-generated captions are often
deterministic (e.g., generating a fixed caption for a given audio clip), simple
(e.g., using common words and simple grammar), and generic (e.g., generating
the same caption for similar audio clips). When people are asked to describe
the content of an audio clip, different people tend to focus on different sound
events and describe an audio clip diversely from various aspects using distinct
words and grammar. We believe that an audio captioning system should have the
ability to generate diverse captions, either for a fixed audio clip, or across
similar audio clips. To this end, we propose an adversarial training framework
based on a conditional generative adversarial network (C-GAN) to improve
diversity of audio captioning systems. A caption generator and two hybrid
discriminators compete and are learned jointly, where the caption generator can
be any standard encoder-decoder captioning model used to generate captions, and
the hybrid discriminators assess the generated captions from different
criteria, such as their naturalness and semantics. We conduct experiments on
the Clotho dataset. The results show that our proposed model can generate
captions with better diversity as compared to state-of-the-art methods.
- Abstract(参考訳): 自動音声キャプションは、自然言語の文で音声クリップの内容を記述するためのクロスモーダル翻訳タスクである。
この作業は注目を集め、近年はかなりの進歩を遂げている。
既存のモデルによって生成されたキャプションは一般にオーディオクリップの内容に忠実であるが、これらのマシン生成キャプションは決定論的(例えば、与えられたオーディオクリップに固定キャプションを生成する)、単純(例えば、一般的な単語と単純な文法を使用する)、汎用(例えば、類似のオーディオクリップに同じキャプションを生成する)であることが多い。
音声クリップの内容の説明を依頼されるとき、異なる人々は異なる音響イベントに集中し、異なる単語と文法を使用して様々な側面から様々な音声クリップを記述する傾向がある。
音声キャプションシステムは、固定されたオーディオクリップや類似のオーディオクリップに対して、多様なキャプションを生成することができるべきだと考えています。
そこで本研究では,C-GAN(Con Conditional Generative Adversarial Network)をベースとした,音声キャプションシステムの多様性向上のための逆トレーニングフレームワークを提案する。
キャプション生成器と2つのハイブリッド判別器は、キャプション生成器がキャプション生成に使用される任意の標準エンコーダ・デコーダキャプションモデルであり、ハイブリッド判別器は、キャプション生成したキャプションを自然性や意味論などの異なる基準から評価することができる。
Clothoデータセット上で実験を行う。
その結果,提案手法は最先端手法に比べて多様性の高いキャプションを生成できることがわかった。
関連論文リスト
- It's Just Another Day: Unique Video Captioning by Discriminative Prompting [70.99367779336256]
同じキャプションを持つ複数のクリップが与えられた場合、各クリップに対して、そのキャプションをユニークに識別する新しいキャプションを生成する。
CDPが生成したキャプションは、エゴセントリックなビデオでは15%改善し、タイムループ映画では10%改善した。
論文 参考訳(メタデータ) (2024-10-15T15:41:49Z) - An Eye for an Ear: Zero-shot Audio Description Leveraging an Image Captioner using Audiovisual Distribution Alignment [6.977241620071544]
マルチモーダルな大言語モデルは画像キャプションの進歩を加速させた。
本研究では,この機能を音声キャプションに再利用できることを示す。
本稿では,視覚的モダリティのギャップを埋めるための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-08T12:52:48Z) - Improving Text-To-Audio Models with Synthetic Captions [51.19111942748637]
本研究では,テクスタイディオ言語モデルを用いて,高精度で多様な音声キャプションを大規模に合成する音声キャプションパイプラインを提案する。
このパイプラインを利用してAudioSetと命名されたAudioSetの合成キャプションのデータセットを作成し、これらの合成キャプション上でのテキスト音声モデルの事前学習の利点を評価する。
論文 参考訳(メタデータ) (2024-06-18T00:02:15Z) - Zero-shot audio captioning with audio-language model guidance and audio
context keywords [59.58331215337357]
タスク固有の訓練を必要とせず、テキストキャプション内の一般的な音声信号を要約する新しいフレームワークであるZerAuCapを提案する。
本フレームワークは,事前学習された大言語モデル(LLM)を用いて,事前学習された音声モデルによって指導されたテキストを生成し,キャプションを生成する。
提案手法は,AudioCaps と Clotho のデータセットにゼロショット音声キャプションを付加することで,最先端の音声キャプションを実現する。
論文 参考訳(メタデータ) (2023-11-14T18:55:48Z) - Visually-Aware Audio Captioning With Adaptive Audio-Visual Attention [54.4258176885084]
曖昧な音を正確に認識する方法は、音声キャプションにとって大きな課題である。
本稿では,視覚情報を利用して不明瞭な音の物体の記述を支援する視覚認識型音声キャプションを提案する。
提案手法は,機械翻訳メトリクスの最先端結果を実現する。
論文 参考訳(メタデータ) (2022-10-28T22:45:41Z) - Caption Feature Space Regularization for Audio Captioning [24.40864471466915]
一般的な音声キャプションモデルは、音声毎に関連付けられたキャプションを基本真実としてランダムに選択することにより、一対多の訓練を実現する。
音声キャプションのための2段階のフレームワークを提案する: (i) コントラスト学習を通して、同じオーディオに関連付けられたキャプション間の距離を減らすためにプロキシ特徴空間を構築し、 (ii) 第二段階では、プロキシ特徴空間を追加のインスペクションとして利用し、関連するすべてのキャプションに利益をもたらす方向にモデルが最適化されるように促す。
論文 参考訳(メタデータ) (2022-04-18T17:07:31Z) - Controllable Video Captioning with an Exemplar Sentence [89.78812365216983]
本稿では,エンコーダ・デコーダ・リコンストラクタアーキテクチャに組み込んだ新しいSMCGを提案する。
SMCGはビデオセマンティック表現を入力とし、長期記憶ネットワークのゲートとセルを条件的に変調する。
2つの公開ビデオキャプションデータセットに対して、補助的な例文を収集して実験を行う。
論文 参考訳(メタデータ) (2021-12-02T09:24:45Z) - Syntax Customized Video Captioning by Imitating Exemplar Sentences [90.98221715705435]
SCVC(Syntax Customized Video Captioning)の新たなタスクについて紹介する。
SCVCは、ビデオの内容を意味的に記述するだけでなく、与えられた先行文を構文的に模倣する1つのキャプションを生成することを目的としている。
本稿では,構文解析と意味論的コヒーレントなビデオキャプションを生成するためのモデル機能を示す。
論文 参考訳(メタデータ) (2021-12-02T09:08:09Z) - Audio Captioning with Composition of Acoustic and Semantic Information [1.90365714903665]
本稿では,双方向Gated Recurrent Units (BiGRU) を用いたエンコーダ・デコーダアーキテクチャを提案する。
音声特徴抽出には、ログメルエネルギー機能、VGGish埋め込み、事前訓練されたオーディオニューラルネットワーク(PANN)埋め込みを用いる。
提案手法は,様々な評価指標において,最先端の音声キャプションモデルより優れている。
論文 参考訳(メタデータ) (2021-05-13T15:30:14Z) - Multi-task Regularization Based on Infrequent Classes for Audio
Captioning [19.50869817974852]
音声キャプションにおける重要な課題は、キャプション内の単語の分配である。
本稿では,このクラス不均衡問題を緩和する2つの方法を提案する。
最近発表された大規模音声キャプションデータセットであるClosoを用いて,本手法の評価を行った。
論文 参考訳(メタデータ) (2020-07-09T09:38:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。