論文の概要: Expanding on EnCLAP with Auxiliary Retrieval Model for Automated Audio Captioning
- arxiv url: http://arxiv.org/abs/2409.01160v1
- Date: Mon, 2 Sep 2024 10:47:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 07:13:03.192778
- Title: Expanding on EnCLAP with Auxiliary Retrieval Model for Automated Audio Captioning
- Title(参考訳): 自動音声キャプションのための補助検索モデルによるEnCLAPの拡張
- Authors: Jaeyeon Kim, Jaeyoon Jung, Minjeong Jeon, Sang Hoon Woo, Jinjoo Lee,
- Abstract要約: 本稿では,EnCLAP音声キャプションフレームワークに基づくアプローチを開発する。
基礎となるコンポーネントの変更と再品位プロセスの組み入れについて概説する。
提案システムでは,タスク6のFENSEスコアが0.542,タスク8のmAP@10スコアが0.386,ベースラインモデルが大幅に向上した。
- 参考スコア(独自算出の注目度): 4.345953264604522
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this technical report, we describe our submission to DCASE2024 Challenge Task6 (Automated Audio Captioning) and Task8 (Language-based Audio Retrieval). We develop our approach building upon the EnCLAP audio captioning framework and optimizing it for Task6 of the challenge. Notably, we outline the changes in the underlying components and the incorporation of the reranking process. Additionally, we submit a supplementary retriever model, a byproduct of our modified framework, to Task8. Our proposed systems achieve FENSE score of 0.542 on Task6 and mAP@10 score of 0.386 on Task8, significantly outperforming the baseline models.
- Abstract(参考訳): 本稿では,DCASE2024 Challenge Task6 (Automated Audio Captioning) と Task8 (Language-based Audio Retrieval) について述べる。
本稿では,EnCLAP音声キャプションフレームワークに基づくアプローチを開発し,課題の6タスクに最適化する。
特に、基礎となるコンポーネントの変更と、再品位プロセスの組み入れについて概説する。
さらに、修正したフレームワークの副産物である補足型レトリバーモデルをTask8に送信します。
提案システムでは,タスク6のFENSEスコアが0.542,タスク8のmAP@10スコアが0.386,ベースラインモデルが大幅に向上した。
関連論文リスト
- Towards Attention-based Contrastive Learning for Audio Spoof Detection [3.08086566663567]
視覚変換器 (ViT) はコンピュータビジョンにおける分類タスクに大きく進歩している。
音声スプーフ検出タスクにViTを導入する。
本稿では,クロスアテンションを用いて表現学習を支援する新しい注目型コントラスト学習フレームワーク(SSAST-CL)を提案する。
論文 参考訳(メタデータ) (2024-07-03T21:25:12Z) - Performance Improvement of Language-Queried Audio Source Separation Based on Caption Augmentation From Large Language Models for DCASE Challenge 2024 Task 9 [4.328586290529485]
本稿では,言語クエリ音声ソース分離(LASS)タスクに適用した,プロンプトエンジニアリングに基づくテキスト拡張手法を提案する。
学習データセットの各文に対応する複数の字幕を生成するために,大規模言語モデル (LLM) を用いた。
論文 参考訳(メタデータ) (2024-06-17T06:19:14Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Exposing Limitations of Language Model Agents in Sequential-Task
Compositions on the Web [74.76803612807949]
言語モデルエージェント(LMA)は、ミューティステップ決定タスクにおける有望なパラダイムとして登場した。
約束にもかかわらず、現実世界のアプリケーションでの彼らのパフォーマンスはまだ過小評価されている。
既存のLMAはベースタスクで平均94.0%の成功率を達成したが、その性能は構成タスクで平均24.9%に低下した。
論文 参考訳(メタデータ) (2023-11-30T17:50:47Z) - Task-oriented Document-Grounded Dialog Systems by HLTPR@RWTH for DSTC9
and DSTC10 [40.05826687535019]
本稿では,第9回,第10回ダイアログシステム技術チャレンジにおけるダイアログタスクへのコントリビューションについて要約する。
両方のイテレーションにおいて、タスクは3つのサブタスクから構成される: 第一に、現在のターンが知識検索であるかどうかを検知し、第二に関連する知識文書を選択し、第三に、選択されたドキュメントに基づいて応答を生成する。
論文 参考訳(メタデータ) (2023-04-14T12:46:29Z) - Efficient Audio Captioning Transformer with Patchout and Text Guidance [74.59739661383726]
本稿では, [1] で提案した Patchout を利用したフルトランスフォーマーアーキテクチャを提案する。
キャプション生成は、事前訓練された分類モデルにより抽出されたテキストオーディオセットタグに部分的に条件付けされる。
提案手法は,DCASE Challenge 2022のタスク6Aで審査員賞を受賞している。
論文 参考訳(メタデータ) (2023-04-06T07:58:27Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - Attention based end to end Speech Recognition for Voice Search in Hindi
and English [0.0]
本稿では,eコマースプラットフォームにおける音声検索機能の文脈における音声認識(ASR)の取り組みについて述べる。
我々は、革新的なアプローチを取り入れるために、モデル設計とアテンションメカニズムを構築し、拡張する。
本稿では, 最新のLASモデル上でのWERの相対的な改善を15.7%で報告する。
論文 参考訳(メタデータ) (2021-11-15T18:08:32Z) - Finetuned Language Models Are Zero-Shot Learners [67.70352207685558]
命令チューニングは、目に見えないタスクにおけるゼロショット性能を向上することを示す。
137Bパラメータを事前訓練した言語モデルと、自然言語の命令テンプレートを介して言語化された60以上のNLPタスクにチューニングする。
FLANと呼ばれるこの命令調整モデルについて、未知のタスクタイプで評価する。
論文 参考訳(メタデータ) (2021-09-03T17:55:52Z) - AudioCLIP: Extending CLIP to Image, Text and Audio [6.585049648605185]
テキストや画像に加えて音声を扱うCLIPモデルの拡張を提案する。
提案モデルでは,AudioSetデータセットを用いてESResNeXtオーディオモデルをCLIPフレームワークに組み込む。
環境音分類(ESC)タスクにおいて,AudioCLIPは新たな最先端結果を実現する。
論文 参考訳(メタデータ) (2021-06-24T14:16:38Z) - The NTT DCASE2020 Challenge Task 6 system: Automated Audio Captioning
with Keywords and Sentence Length Estimation [49.41766997393417]
本報告では, 音響シーン・イベントの検出・分類に関わるシステムについて述べる。
本論文は,音声の自動字幕化における2つの不確定性,すなわち,単語選択不確定性と文長不確定性に焦点をあてる。
マルチタスク学習によりキーワードと文長を推定することにより,主字幕生成と部分不確定化を同時に解決する。
論文 参考訳(メタデータ) (2020-07-01T04:26:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。