論文の概要: Multi-task Regularization Based on Infrequent Classes for Audio
Captioning
- arxiv url: http://arxiv.org/abs/2007.04660v1
- Date: Thu, 9 Jul 2020 09:38:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 05:26:41.855412
- Title: Multi-task Regularization Based on Infrequent Classes for Audio
Captioning
- Title(参考訳): 音声キャプションのための頻繁な授業に基づくマルチタスク正規化
- Authors: Emre \c{C}ak{\i}r and Konstantinos Drossos and Tuomas Virtanen
- Abstract要約: 音声キャプションにおける重要な課題は、キャプション内の単語の分配である。
本稿では,このクラス不均衡問題を緩和する2つの方法を提案する。
最近発表された大規模音声キャプションデータセットであるClosoを用いて,本手法の評価を行った。
- 参考スコア(独自算出の注目度): 19.50869817974852
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio captioning is a multi-modal task, focusing on using natural language
for describing the contents of general audio. Most audio captioning methods are
based on deep neural networks, employing an encoder-decoder scheme and a
dataset with audio clips and corresponding natural language descriptions (i.e.
captions). A significant challenge for audio captioning is the distribution of
words in the captions: some words are very frequent but acoustically
non-informative, i.e. the function words (e.g. "a", "the"), and other words are
infrequent but informative, i.e. the content words (e.g. adjectives, nouns). In
this paper we propose two methods to mitigate this class imbalance problem.
First, in an autoencoder setting for audio captioning, we weigh each word's
contribution to the training loss inversely proportional to its number of
occurrences in the whole dataset. Secondly, in addition to multi-class,
word-level audio captioning task, we define a multi-label side task based on
clip-level content word detection by training a separate decoder. We use the
loss from the second task to regularize the jointly trained encoder for the
audio captioning task. We evaluate our method using Clotho, a recently
published, wide-scale audio captioning dataset, and our results show an
increase of 37\% relative improvement with SPIDEr metric over the baseline
method.
- Abstract(参考訳): 音声キャプションはマルチモーダルタスクであり、一般的な音声の内容を自然言語で記述することに焦点を当てている。
ほとんどの音声キャプションはディープニューラルネットワークに基づいており、エンコーダ-デコーダスキームとオーディオクリップと対応する自然言語記述(キャプション)を備えたデータセットを使用している。
音声キャプションにおける重要な課題は、字幕内の単語の分布である:いくつかの単語は非常に頻繁であるが、音響的に非形式的、すなわち、機能語(例えば「a」や「the」)と他の単語は稀だが情報的、すなわち内容語(例えば形容詞、名詞)である。
本稿では,このクラス不均衡問題を緩和する2つの方法を提案する。
まず、音声キャプションのための自動エンコーダ設定において、各単語の学習損失に対する寄与度を、データセット全体の発生回数に反比例する重み付けを行う。
次に,マルチクラス音声キャプションタスクに加えて,個別のデコーダを訓練することにより,クリップレベルコンテンツワード検出に基づくマルチラベルサイドタスクを定義する。
音声キャプションタスクのための共同訓練エンコーダを正規化するために,第2タスクからの損失を利用する。
提案手法は,最近公開された大規模音声キャプションデータセットであるClosoを用いて評価し,本手法よりもSPIDEr法の方が375%向上したことを示す。
関連論文リスト
- Zero-shot audio captioning with audio-language model guidance and audio
context keywords [59.58331215337357]
タスク固有の訓練を必要とせず、テキストキャプション内の一般的な音声信号を要約する新しいフレームワークであるZerAuCapを提案する。
本フレームワークは,事前学習された大言語モデル(LLM)を用いて,事前学習された音声モデルによって指導されたテキストを生成し,キャプションを生成する。
提案手法は,AudioCaps と Clotho のデータセットにゼロショット音声キャプションを付加することで,最先端の音声キャプションを実現する。
論文 参考訳(メタデータ) (2023-11-14T18:55:48Z) - HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [72.69268311756082]
本稿では,大言語モデル(LLM)の能力を活用して,大規模ビデオに対応する高品質な映像記述を実現することを提案する。
本稿では,より長い字幕テキストを考慮に入れたプロンプト手法を提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for Audio-Language Multimodal Research [82.42802570171096]
約400kの音声クリップとペアキャプションを組み合わせた,大規模な音声キャプションデータセットであるWavCapsを紹介した。
オンラインハーベストな生の記述は非常にうるさいし、自動音声キャプションなどのタスクで直接使うには適さない。
本稿では,大規模な言語モデルであるChatGPTを用いて,ノイズの多いデータをフィルタリングし,高品質なキャプションを生成するための3段階処理パイプラインを提案する。
論文 参考訳(メタデータ) (2023-03-30T14:07:47Z) - Towards Generating Diverse Audio Captions via Adversarial Training [33.76154801580643]
音声キャプションシステムの多様性を向上させるために,条件付き生成対向ネットワーク(C-GAN)を提案する。
キャプションジェネレータと2つのハイブリッドディスクリミネータが競合し、共同で学習し、キャプションジェネレータは、キャプションを生成するのに使用される標準エンコーダデコーダキャプションモデルとなることができる。
その結果,提案モデルでは,最先端手法と比較して,より多様性の高いキャプションを生成できることが示唆された。
論文 参考訳(メタデータ) (2022-12-05T05:06:19Z) - Caption Feature Space Regularization for Audio Captioning [24.40864471466915]
一般的な音声キャプションモデルは、音声毎に関連付けられたキャプションを基本真実としてランダムに選択することにより、一対多の訓練を実現する。
音声キャプションのための2段階のフレームワークを提案する: (i) コントラスト学習を通して、同じオーディオに関連付けられたキャプション間の距離を減らすためにプロキシ特徴空間を構築し、 (ii) 第二段階では、プロキシ特徴空間を追加のインスペクションとして利用し、関連するすべてのキャプションに利益をもたらす方向にモデルが最適化されるように促す。
論文 参考訳(メタデータ) (2022-04-18T17:07:31Z) - Audio Captioning with Composition of Acoustic and Semantic Information [1.90365714903665]
本稿では,双方向Gated Recurrent Units (BiGRU) を用いたエンコーダ・デコーダアーキテクチャを提案する。
音声特徴抽出には、ログメルエネルギー機能、VGGish埋め込み、事前訓練されたオーディオニューラルネットワーク(PANN)埋め込みを用いる。
提案手法は,様々な評価指標において,最先端の音声キャプションモデルより優れている。
論文 参考訳(メタデータ) (2021-05-13T15:30:14Z) - Multi-modal Dense Video Captioning [18.592384822257948]
イベント記述に様々なモダリティを活用可能な,新しい高密度ビデオキャプション手法を提案する。
音声と音声のモダリティが高密度ビデオキャプションモデルをどのように改善するかを示す。
論文 参考訳(メタデータ) (2020-03-17T15:15:17Z) - Unsupervised Audiovisual Synthesis via Exemplar Autoencoders [59.13989658692953]
我々は,任意の個人の入力音声を,潜在的に無限に多くの出力スピーカのオーディオ視覚ストリームに変換する教師なしのアプローチを提案する。
我々は、Exemplar Autoencodersを用いて、特定のターゲット音声の音声、スタイリスティックな韻律、視覚的外観を学習する。
論文 参考訳(メタデータ) (2020-01-13T18:56:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。