論文の概要: Automated Audio Captioning and Language-Based Audio Retrieval
- arxiv url: http://arxiv.org/abs/2207.04156v1
- Date: Fri, 8 Jul 2022 23:48:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-14 05:53:19.972158
- Title: Automated Audio Captioning and Language-Based Audio Retrieval
- Title(参考訳): 自動音声キャプションと言語に基づく音声検索
- Authors: Clive Gomes, Hyejin Park, Patrick Kollman, Yi Song
- Abstract要約: このプロジェクトには2つのサブタスクがあった: 自動音声キャプションと言語ベースの音声検索である。
両方のサブタスクで、Clathoデータセットが使用された。
BLEU1, BLEU2, BLEU3, ROUGEL, METEOR, CIDEr, SPICE, SPIDEr の音声キャプション, R1, R5, R10, mARP10 の音声検索における評価を行った。
- 参考スコア(独自算出の注目度): 2.473711963382718
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: This project involved participation in the DCASE 2022 Competition (Task 6)
which had two subtasks: (1) Automated Audio Captioning and (2) Language-Based
Audio Retrieval. The first subtask involved the generation of a textual
description for audio samples, while the goal of the second was to find audio
samples within a fixed dataset that match a given description. For both
subtasks, the Clotho dataset was used. The models were evaluated on BLEU1,
BLEU2, BLEU3, ROUGEL, METEOR, CIDEr, SPICE, and SPIDEr scores for audio
captioning and R1, R5, R10 and mARP10 scores for audio retrieval. We have
conducted a handful of experiments that modify the baseline models for these
tasks. Our final architecture for Automated Audio Captioning is close to the
baseline performance, while our model for Language-Based Audio Retrieval has
surpassed its counterpart.
- Abstract(参考訳): 本プロジェクトは,(1)自動音声キャプションと(2)言語に基づく音声検索の2つのサブタスクを有するDCASE 2022コンペティション(タスク6)に参加した。
第1のサブタスクは音声サンプルのテキスト記述の生成であり、第2のタスクの目標は、与えられた記述にマッチする固定データセット内でオーディオサンプルを見つけることであった。
両方のサブタスクで、Clathoデータセットが使用された。
モデルは, BLEU1, BLEU2, BLEU3, ROUGEL, METEOR, CIDEr, SPICE, SPIDErの音声キャプション, R1, R5, R10, mARP10で評価した。
これらのタスクのベースラインモデルを変更するいくつかの実験を行った。
Automated Audio Captioningの最終的なアーキテクチャはベースラインのパフォーマンスに近いが、Language-based Audio Retrievalのモデルはそれを上回っている。
関連論文リスト
- Language-based Audio Moment Retrieval [14.227865973426843]
音声モーメント検索(AMR)と呼ばれる新しいタスクを提案し設計する。
従来の言語ベースの音声検索タスクとは異なり、AMRはテキストクエリに基づいて、未編集の長い音声の関連モーメントを予測することを目的としている。
我々は、モーメントアノテーションを付加した大規模なシミュレーションオーディオ録音からなる専用のデータセット、Clatho-Momentを構築した。
次に、AMRタスクの基本的なフレームワークとして、Audio Moment DETR (AM-DETR) と呼ばれるDETRベースのモデルを提案する。
論文 参考訳(メタデータ) (2024-09-24T02:24:48Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z) - Retrieval-Augmented Text-to-Audio Generation [36.328134891428085]
本稿では,AudioLDMのような最先端モデルが,その世代性能に偏っていることを示す。
本稿では,TTAモデルに対する単純な検索拡張手法を提案する。
Re-AudioLDMは、複雑なシーン、稀なオーディオクラス、さらには目に見えないオーディオタイプに対して、現実的なオーディオを生成することができる。
論文 参考訳(メタデータ) (2023-09-14T22:35:39Z) - Zero-Shot Audio Captioning via Audibility Guidance [57.70351255180495]
音声のキャプションのためのデシラタを3つ提案する -- (i) 生成したテキストの流布, (ii) 生成したテキストを入力オーディオに忠実さ, (iii) 可聴性。
本手法はゼロショット法であり,キャプションの実行を学習していない。
本稿では,AudioCapデータセットを用いて,聴力指導がベースラインと比較して性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:45:58Z) - AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining [46.22290575167155]
本稿では, 音声, 音楽, 音響効果生成のための同じ学習手法を用いた枠組みを提案する。
私たちのフレームワークでは、LOA(Language of Audio)と呼ばれる音声の一般的な表現を導入しています。
論文 参考訳(メタデータ) (2023-08-10T17:55:13Z) - Separate Anything You Describe [55.0784713558149]
言語クエリオーディオソース分離(LASS)は,CASA(Computer auditory scene analysis)の新しいパラダイムである
AudioSepは、自然言語クエリによるオープンドメインオーディオソース分離の基礎モデルである。
論文 参考訳(メタデータ) (2023-08-09T16:09:44Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - Audio Captioning using Gated Recurrent Units [1.3960152426268766]
VGGishオーディオ埋め込みモデルは、音声キャプションタスクにおけるオーディオ埋め込みのユーザビリティを調べるために使用される。
提案アーキテクチャは、音声とテキストの入力モダリティを別々に符号化し、復号ステージの前に合成する。
実験結果から,提案したBiGRUを用いた深部モデルでは,術式よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-06-05T12:03:12Z) - Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio
Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。
我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。
探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文 参考訳(メタデータ) (2020-05-18T10:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。