論文の概要: The NTT DCASE2020 Challenge Task 6 system: Automated Audio Captioning
with Keywords and Sentence Length Estimation
- arxiv url: http://arxiv.org/abs/2007.00225v1
- Date: Wed, 1 Jul 2020 04:26:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 22:35:11.702949
- Title: The NTT DCASE2020 Challenge Task 6 system: Automated Audio Captioning
with Keywords and Sentence Length Estimation
- Title(参考訳): NTT DCASE2020 Challenge Task 6 System: キーワードと文長推定による自動音声キャプション
- Authors: Yuma Koizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada, Kunio
Kashino
- Abstract要約: 本報告では, 音響シーン・イベントの検出・分類に関わるシステムについて述べる。
本論文は,音声の自動字幕化における2つの不確定性,すなわち,単語選択不確定性と文長不確定性に焦点をあてる。
マルチタスク学習によりキーワードと文長を推定することにより,主字幕生成と部分不確定化を同時に解決する。
- 参考スコア(独自算出の注目度): 49.41766997393417
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: This technical report describes the system participating to the Detection and
Classification of Acoustic Scenes and Events (DCASE) 2020 Challenge, Task 6:
automated audio captioning. Our submission focuses on solving two indeterminacy
problems in automated audio captioning: word selection indeterminacy and
sentence length indeterminacy. We simultaneously solve the main caption
generation and sub indeterminacy problems by estimating keywords and sentence
length through multi-task learning. We tested a simplified model of our
submission using the development-testing dataset. Our model achieved 20.7
SPIDEr score where that of the baseline system was 5.4.
- Abstract(参考訳): 本技術報告では,音響シーン・イベントの検出・分類(DCASE)2020 Challenge, Task 6: 自動音声キャプションを行うシステムについて述べる。
提案手法は,音声キャプションの自動生成における2つの不確定性問題を解決することに焦点を当てている。
マルチタスク学習によってキーワードや文長を推定することにより,主字幕生成と下位不確定問題を同時に解決する。
開発テストデータセットを用いて,提案モデルの簡易化を試みた。
ベースラインシステムのスコアが5.4の20.7 SPIDErを達成した。
関連論文リスト
- Perception Test 2023: A Summary of the First Challenge And Outcome [67.0525378209708]
最初のパーセプションテストは、IEEE/CVF International Conference on Computer Vision (ICCV) 2023と共に半日間のワークショップとして開催された。
目標は、最近提案されたPerception Testベンチマークで最先端のビデオモデルをベンチマークすることであった。
このレポートでは、タスク記述、メトリクス、ベースライン、結果について要約しています。
論文 参考訳(メタデータ) (2023-12-20T15:12:27Z) - OxfordVGG Submission to the EGO4D AV Transcription Challenge [81.13727731938582]
本報告では,OxfordVG チームによる EGO4D Audio-Visual (AV) Automatic Speech Recognition Challenge 2023 の提出の技術的詳細について述べる。
本稿では,WhisperXについて述べる。WhisperXは,単語レベルの時間的アライメントを持つ長音の音声の効率的な書き起こしシステムであり,また2つのテキスト正規化器を公開している。
最終提出書では、挑戦テストセットでワードエラー率(WER)の56.2%を獲得し、リーダーボードで1位にランクインした。
論文 参考訳(メタデータ) (2023-07-18T06:48:39Z) - Cross-lingual Alzheimer's Disease detection based on paralinguistic and
pre-trained features [6.928826160866143]
本稿ではICASSP-SPGC-2023 ADReSS-M Challenge Taskについて述べる。
この課題は、アルツハイマー病の予測のために、どの音響特徴を一般化し、言語間で伝達できるかを検討することである。
我々は、openSmileツールキットとXLSR-53を用いた音響特性を用いてパラ言語的特徴を抽出する。
本手法は分類タスクの69.6%の精度と回帰タスクの4.788の根平均二乗誤差(RMSE)を実現する。
論文 参考訳(メタデータ) (2023-03-14T06:34:18Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - Speaker-Conditioned Hierarchical Modeling for Automated Speech Scoring [60.55025339250815]
本研究では、話者条件付き階層型モデリングと呼ばれる非ネイティブASSのための新しいディープラーニング手法を提案する。
本手法では, 口腔熟練度テストが候補に対して複数の応答を評価できるという事実を生かして, 候補に対して複数の応答を評価できる。これらの応答からコンテキストを抽出し, ネットワークに付加的な話者固有のコンテキストとして与えて, 特定の応答をスコアする。
論文 参考訳(メタデータ) (2021-08-30T07:00:28Z) - Auto-KWS 2021 Challenge: Task, Datasets, and Baselines [63.82759886293636]
Auto-KWS 2021チャレンジは、カスタマイズされたキーワードスポッティングタスクに機械学習を適用するプロセスを自動化するために、自動機械学習(AutoML)ソリューションを呼び出します。
この課題は、ターゲットデバイスが特定のキーワードで登録された話者によってのみ覚醒できる、カスタマイズされたキーワードスポッティングの問題に焦点を当てている。
論文 参考訳(メタデータ) (2021-03-31T14:56:48Z) - AutoSpeech 2020: The Second Automated Machine Learning Challenge for
Speech Classification [31.22181821515342]
AutoSpeechチャレンジでは、機械学習を音声処理タスクに適用するプロセスを自動化するために、自動機械学習(AutoML)ソリューションが求められている。
本稿では,課題プロトコル,データセット,評価基準,開始キット,ベースラインシステムについて概説する。
論文 参考訳(メタデータ) (2020-10-25T15:01:41Z) - A Transformer-based Audio Captioning Model with Keyword Estimation [36.507981376481354]
自動音声キャプション(AAC)の問題点の1つは、音声イベント/シーンに対応する単語選択の不確定性である。
本稿では,TRACKEと呼ばれるキーワード推定を用いたトランスフォーマーに基づく音声キャプションモデルを提案する。
音響事象検出/音響シーン分類のサブタスクを実行しながら、AACのメインタスクと単語選択の不確定問題を同時に解決する。
論文 参考訳(メタデータ) (2020-07-01T04:21:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。