論文の概要: Text-to-Audio Grounding Based Novel Metric for Evaluating Audio Caption
Similarity
- arxiv url: http://arxiv.org/abs/2210.06354v1
- Date: Mon, 3 Oct 2022 11:58:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-16 16:04:40.874893
- Title: Text-to-Audio Grounding Based Novel Metric for Evaluating Audio Caption
Similarity
- Title(参考訳): 音声キャプション類似度評価のためのテキスト音声グラウンドベース新指標
- Authors: Swapnil Bhosale, Rupayan Chakraborty, Sunil Kumar Kopparapu
- Abstract要約: Automatic Audio Captioning (AAC)は、音声サンプルを自然言語(NL)テキストに変換するタスクを指す。
評価にBLEU、ROUGE、METEORなどのメトリクスに依存するNLテキスト生成タスクとは異なり、AAC評価基準は類似した音に対応するNLテキスト(フレーズ)をマッピングする機能を必要とする。
AACタスクの評価に用いられる現在のメトリクスは、テキストで表される音の知覚特性の理解が欠如している。
- 参考スコア(独自算出の注目度): 25.258177951665594
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Automatic Audio Captioning (AAC) refers to the task of translating an audio
sample into a natural language (NL) text that describes the audio events,
source of the events and their relationships. Unlike NL text generation tasks,
which rely on metrics like BLEU, ROUGE, METEOR based on lexical semantics for
evaluation, the AAC evaluation metric requires an ability to map NL text
(phrases) that correspond to similar sounds in addition lexical semantics.
Current metrics used for evaluation of AAC tasks lack an understanding of the
perceived properties of sound represented by text. In this paper, wepropose a
novel metric based on Text-to-Audio Grounding (TAG), which is, useful for
evaluating cross modal tasks like AAC. Experiments on publicly available AAC
data-set shows our evaluation metric to perform better compared to existing
metrics used in NL text and image captioning literature.
- Abstract(参考訳): 自動音声キャプション(automatic audio captioning, aac)は、音声サンプルを自然言語(nl)のテキストに翻訳し、音声イベント、イベントのソース、それらの関係を記述するタスクである。
bleu、rouge、meteorといった語彙意味論に基づく評価基準に依存するnlテキスト生成タスクとは異なり、aac評価メトリクスは、語彙意味論に加えて類似した音に対応するnlテキスト(フレーズ)をマッピングする機能を必要としている。
AACタスクの評価に用いられる現在のメトリクスは、テキストで表される音の知覚特性の理解が欠けている。
本稿では,aacのようなクロスモーダルタスクの評価に有用な,text-to-audio grounding(tag)に基づく新しいメトリックを提案する。
公開されているAACデータセットの実験では、NLテキストや画像キャプションの文献で使われている既存の指標と比較して、より良い評価基準が得られた。
関連論文リスト
- Audio Captioning via Generative Pair-to-Pair Retrieval with Refined Knowledge Base [0.0]
Retrieval-Augmented Generation (RAG)は、知識ベースから音声テキストペアを検索し、クエリオーディオで拡張し、正確なテキスト応答を生成する。
生成したキャプションをテキストクエリとして使用して,関連する音声テキストペアを正確に検索する生成ペア対検索を提案する。
提案手法は,AudioCaps,Clotho,Auto-ACDといったベンチマークの最先端結果を実現する。
論文 参考訳(メタデータ) (2024-10-14T04:57:32Z) - CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - Bridging Language Gaps in Audio-Text Retrieval [28.829775980536574]
本稿では,多言語テキストエンコーダ(SONAR)を用いた言語拡張 (LE) を提案し,テキストデータを言語固有の情報で符号化する。
我々は,一貫したアンサンブル蒸留(CED)の適用により,オーディオエンコーダを最適化し,可変長音声テキスト検索のサポートを強化した。
提案手法は,AudioCaps や Clotho などの一般的なデータセット上でのSOTA (State-of-the-art) の性能を示す,英語の音声テキスト検索に優れている。
論文 参考訳(メタデータ) (2024-06-11T07:12:12Z) - Weakly-supervised Automated Audio Captioning via text only training [1.504795651143257]
本稿では,テキストデータと事前学習されたCLAPモデルのみを前提として,AACモデルをトレーニングするための弱い教師付きアプローチを提案する。
提案手法をClosoとAudioCapsのデータセット上で評価し,完全に教師されたアプローチと比較して,最大83%の相対的な性能を実現する能力を示した。
論文 参考訳(メタデータ) (2023-09-21T16:40:46Z) - Efficient Audio Captioning Transformer with Patchout and Text Guidance [74.59739661383726]
本稿では, [1] で提案した Patchout を利用したフルトランスフォーマーアーキテクチャを提案する。
キャプション生成は、事前訓練された分類モデルにより抽出されたテキストオーディオセットタグに部分的に条件付けされる。
提案手法は,DCASE Challenge 2022のタスク6Aで審査員賞を受賞している。
論文 参考訳(メタデータ) (2023-04-06T07:58:27Z) - BLASER: A Text-Free Speech-to-Speech Translation Evaluation Metric [66.73705349465207]
エンドツーエンドの音声音声翻訳(S2ST)は、一般的にテキストベースのメトリクスで評価される。
本稿では,ASRシステムへの依存を回避するために,BLASERと呼ばれるエンドツーエンドS2STのテキストフリー評価指標を提案する。
論文 参考訳(メタデータ) (2022-12-16T14:00:26Z) - Interactive Audio-text Representation for Automated Audio Captioning
with Contrastive Learning [25.06635361326706]
インタラクティブなモダリティ表現を学習するための,CLIP-AACと呼ばれる新しいAACシステムを提案する。
提案するCLIP-AACでは,事前学習エンコーダにオーディオヘッドとテキストヘッドを導入し,音声テキスト情報を抽出する。
また、音声信号と2つの字幕の対応を学習することで、ドメイン差を狭めるためにコントラスト学習を適用する。
論文 参考訳(メタデータ) (2022-03-29T13:06:46Z) - Separate What You Describe: Language-Queried Audio Source Separation [53.65665794338574]
言語問合せ音声ソース分離(LASS)の課題について紹介する。
LASSは、ターゲットソースの自然言語クエリに基づいて、ターゲットソースをオーディオミックスから分離することを目的としている。
本稿では,音響情報と言語情報を協調処理するエンドツーエンドニューラルネットワークLASS-Netを提案する。
論文 参考訳(メタデータ) (2022-03-28T23:47:57Z) - Audio-text Retrieval in Context [24.38055340045366]
そこで本研究では,音声・テキストのアライメントを改善するために,複数のオーディオ機能とシーケンスアグリゲーション手法について検討する。
我々は,事前学習した音声特徴と記述子に基づくアグリゲーション法を用いた文脈音声テキスト検索システムを構築した。
提案システムでは、リコール、中央値、平均値を含むすべての指標において、双方向音声テキスト検索において顕著な改善が達成されている。
論文 参考訳(メタデータ) (2022-03-25T13:41:17Z) - Unsupervised Cross-Modal Audio Representation Learning from Unstructured
Multilingual Text [69.55642178336953]
教師なし音声表現学習へのアプローチを提案する。
3重項ニューラルネットワークアーキテクチャに基づいて、意味論的に関連付けられたクロスモーダル情報を用いて、音声トラック関連性を推定する。
我々のアプローチは、様々なアノテーションスタイルと、このコレクションの異なる言語に不変であることを示す。
論文 参考訳(メタデータ) (2020-03-27T07:37:15Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。