論文の概要: Is my automatic audio captioning system so bad? spider-max: a metric to
consider several caption candidates
- arxiv url: http://arxiv.org/abs/2211.08983v1
- Date: Mon, 14 Nov 2022 19:16:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 16:59:25.595117
- Title: Is my automatic audio captioning system so bad? spider-max: a metric to
consider several caption candidates
- Title(参考訳): 私の自動音声キャプションシステムはそんなに悪いのか?
spider-max:いくつかのキャプション候補を考えるための指標
- Authors: Etienne Labb\'e (IRIT-SAMoVA, UT3), Thomas Pellegrini (IRIT-SAMoVA,
UT3), Julien Pinquier (IRIT-SAMoVA, UT3)
- Abstract要約: 本研究では,いくつかのキャプション候補のスコアの中から最大SPIDEr値を求める指標であるSPIDEr-maxを提案する。
変換システムを用いたCloso v2.1とAudioCapsについて実験を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic Audio Captioning (AAC) is the task that aims to describe an audio
signal using natural language. AAC systems take as input an audio signal and
output a free-form text sentence, called a caption. Evaluating such systems is
not trivial, since there are many ways to express the same idea. For this
reason, several complementary metrics, such as BLEU, CIDEr, SPICE and SPIDEr,
are used to compare a single automatic caption to one or several captions of
reference, produced by a human annotator. Nevertheless, an automatic system can
produce several caption candidates, either using some randomness in the
sentence generation process, or by considering the various competing
hypothesized captions during decoding with beam-search, for instance. If we
consider an end-user of an AAC system, presenting several captions instead of a
single one seems relevant to provide some diversity, similarly to information
retrieval systems. In this work, we explore the possibility to consider several
predicted captions in the evaluation process instead of one. For this purpose,
we propose SPIDEr-max, a metric that takes the maximum SPIDEr value among the
scores of several caption candidates. To advocate for our metric, we report
experiments on Clotho v2.1 and AudioCaps, with a transformed-based system. On
AudioCaps for example, this system reached a SPIDEr-max value (with 5
candidates) close to the SPIDEr human score of reference.
- Abstract(参考訳): AAC(Automatic Audio Captioning)は、自然言語を用いて音声信号を記述するタスクである。
AACシステムは音声信号を入力として、キャプションと呼ばれる自由形式のテキストを出力する。
このようなシステムの評価は、同じアイデアを表現する多くの方法があるため、ささいなことではない。
このため、ブレウ、サイダー、スパイス、スパイダーなどいくつかの補完的な指標は、人間の注釈によって作成された1つまたは複数の引用キャプションと比較するために使用される。
それにもかかわらず、自動システムは、文生成プロセスでランダム性を使用するか、ビームサーチによるデコード中の様々な競合する仮定的なキャプションを考慮すれば、いくつかのキャプション候補を生成することができる。
AACシステムのエンドユーザーを考えると、情報検索システムと同様に、単一のキャプションの代わりにいくつかのキャプションを提示することは、いくつかの多様性を提供するのに重要と思われる。
本研究では,評価過程における予測キャプションを複数検討する可能性について検討する。
そこで本研究では,いくつかのキャプション候補のスコアの中から最大SPIDEr値を求める指標であるSPIDEr-maxを提案する。
提案手法を提唱するために,Clotho v2.1とAudioCapsの実験を変換ベースシステムで報告する。
たとえばAudioCapsでは、このシステムはSPIDEr-max値(5つの候補を持つ)に到達した。
関連論文リスト
- Look, Listen and Recognise: Character-Aware Audio-Visual Subtitling [62.25533750469467]
そこで本稿では,正確な音声タイムスタンプと話者識別機能を備えた,対話の完全な書き起こしを生成する音声-視覚的手法を提案する。
本手法は,Seinfeld,Fraiser,Scrubsなど,様々なテレビシットコムに対して評価を行った。
このシステムは,最新のストリーミングサービスで利用可能なビデオのアクセシビリティを向上させるために,字幕の自動生成に有用であると考えられる。
論文 参考訳(メタデータ) (2024-01-22T15:26:01Z) - Zero-Shot Audio Captioning via Audibility Guidance [57.70351255180495]
音声のキャプションのためのデシラタを3つ提案する -- (i) 生成したテキストの流布, (ii) 生成したテキストを入力オーディオに忠実さ, (iii) 可聴性。
本手法はゼロショット法であり,キャプションの実行を学習していない。
本稿では,AudioCapデータセットを用いて,聴力指導がベースラインと比較して性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:45:58Z) - Efficient Audio Captioning Transformer with Patchout and Text Guidance [74.59739661383726]
本稿では, [1] で提案した Patchout を利用したフルトランスフォーマーアーキテクチャを提案する。
キャプション生成は、事前訓練された分類モデルにより抽出されたテキストオーディオセットタグに部分的に条件付けされる。
提案手法は,DCASE Challenge 2022のタスク6Aで審査員賞を受賞している。
論文 参考訳(メタデータ) (2023-04-06T07:58:27Z) - Towards Generating Diverse Audio Captions via Adversarial Training [33.76154801580643]
音声キャプションシステムの多様性を向上させるために,条件付き生成対向ネットワーク(C-GAN)を提案する。
キャプションジェネレータと2つのハイブリッドディスクリミネータが競合し、共同で学習し、キャプションジェネレータは、キャプションを生成するのに使用される標準エンコーダデコーダキャプションモデルとなることができる。
その結果,提案モデルでは,最先端手法と比較して,より多様性の高いキャプションを生成できることが示唆された。
論文 参考訳(メタデータ) (2022-12-05T05:06:19Z) - ESB: A Benchmark For Multi-Domain End-to-End Speech Recognition [100.30565531246165]
音声認識システムはデータセット固有のチューニングを必要とする。
このチューニング要件は、他のデータセットやドメインへの一般化に失敗したシステムにつながる可能性がある。
本稿では,1つの自動音声認識システムの性能を評価するために,エンド・ツー・エンド音声ベンチマーク(ESB)を提案する。
論文 参考訳(メタデータ) (2022-10-24T15:58:48Z) - Caption Feature Space Regularization for Audio Captioning [24.40864471466915]
一般的な音声キャプションモデルは、音声毎に関連付けられたキャプションを基本真実としてランダムに選択することにより、一対多の訓練を実現する。
音声キャプションのための2段階のフレームワークを提案する: (i) コントラスト学習を通して、同じオーディオに関連付けられたキャプション間の距離を減らすためにプロキシ特徴空間を構築し、 (ii) 第二段階では、プロキシ特徴空間を追加のインスペクションとして利用し、関連するすべてのキャプションに利益をもたらす方向にモデルが最適化されるように促す。
論文 参考訳(メタデータ) (2022-04-18T17:07:31Z) - BERTHA: Video Captioning Evaluation Via Transfer-Learned Human
Assessment [16.57721566105298]
本稿では,映像キャプションシステムを評価するためのディープラーニングモデルに基づく新しい手法を提案する。
このモデルはBERTをベースにしており、複数のNLPタスクでうまく動作することが示されている言語モデルである。
目的は、モデルが人間のものと似た評価を行うことを学習することである。
論文 参考訳(メタデータ) (2022-01-25T11:29:58Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - Listen carefully and tell: an audio captioning system based on residual
learning and gammatone audio representation [4.591851728010269]
音声を入力として受け入れ、テキスト記述として出力する際には、自動的な音声キャプションシステムを実装する必要がある。
本研究では,エンコーダ位相に基づく残差学習に基づく自動音声キャプションを提案する。
その結果,本研究で提案したフレームワークは,課題結果のベースラインシステムを超えていることがわかった。
論文 参考訳(メタデータ) (2020-06-27T17:16:49Z) - Unsupervised Audiovisual Synthesis via Exemplar Autoencoders [59.13989658692953]
我々は,任意の個人の入力音声を,潜在的に無限に多くの出力スピーカのオーディオ視覚ストリームに変換する教師なしのアプローチを提案する。
我々は、Exemplar Autoencodersを用いて、特定のターゲット音声の音声、スタイリスティックな韻律、視覚的外観を学習する。
論文 参考訳(メタデータ) (2020-01-13T18:56:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。