論文の概要: Automated Audio Captioning: an Overview of Recent Progress and New
Challenges
- arxiv url: http://arxiv.org/abs/2205.05949v1
- Date: Thu, 12 May 2022 08:36:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 14:20:48.199468
- Title: Automated Audio Captioning: an Overview of Recent Progress and New
Challenges
- Title(参考訳): 音声キャプションの自動化:最近の進歩と課題
- Authors: Xinhao Mei, Xubo Liu, Mark D. Plumbley and Wenwu Wang
- Abstract要約: 自動音声キャプションは、与えられた音声クリップの自然言語記述を生成することを目的とした、モーダル横断翻訳タスクである。
本稿では、既存の様々なアプローチから評価指標やデータセットまで、自動音声キャプションにおけるコントリビューションの総合的なレビューを行う。
- 参考スコア(独自算出の注目度): 56.98522404673527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated audio captioning is a cross-modal translation task that aims to
generate natural language descriptions for given audio clips. This task has
received increasing attention with the release of freely available datasets in
recent years. The problem has been addressed predominantly with deep learning
techniques. Numerous approaches have been proposed, such as investigating
different neural network architectures, exploiting auxiliary information such
as keywords or sentence information to guide caption generation, and employing
different training strategies, which have greatly facilitated the development
of this field. In this paper, we present a comprehensive review of the
published contributions in automated audio captioning, from a variety of
existing approaches to evaluation metrics and datasets. Moreover, we discuss
open challenges and envisage possible future research directions.
- Abstract(参考訳): 自動音声キャプション(automated audio captioning)は、音声クリップに対して自然言語記述を生成するクロスモーダル翻訳タスクである。
このタスクは近年,無償で利用可能なデータセットのリリースによって注目を集めている。
この問題は、主にディープラーニング技術で解決されている。
異なるニューラルネットワークアーキテクチャを調査したり、キーワードや文情報などの補助情報を活用してキャプション生成を指導したり、この分野の発展を大いに促進したトレーニング戦略を用いるなど、多くのアプローチが提案されている。
本稿では,既存の評価指標やデータセットに対する様々なアプローチから,音声キャプションの自動生成における投稿の総合的なレビューを行う。
さらに,今後の課題と今後の研究の方向性について考察する。
関連論文リスト
- Deep Learning Approaches on Image Captioning: A Review [0.0]
本研究は,最近の画像キャプション技術とその性能について,主に深層学習に着目した構造化されたレビューを提供することを目的とする。
また,画像キャプションにおけるオープンな問題や未解決課題の議論に加えて,広く使用されているデータセットやパフォーマンス指標についても検討した。
論文 参考訳(メタデータ) (2022-01-31T00:39:37Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Speaker-Conditioned Hierarchical Modeling for Automated Speech Scoring [60.55025339250815]
本研究では、話者条件付き階層型モデリングと呼ばれる非ネイティブASSのための新しいディープラーニング手法を提案する。
本手法では, 口腔熟練度テストが候補に対して複数の応答を評価できるという事実を生かして, 候補に対して複数の応答を評価できる。これらの応答からコンテキストを抽出し, ネットワークに付加的な話者固有のコンテキストとして与えて, 特定の応答をスコアする。
論文 参考訳(メタデータ) (2021-08-30T07:00:28Z) - From Show to Tell: A Survey on Image Captioning [48.98681267347662]
視覚と言語を結びつけることは、ジェネレーティブ・インテリジェンスにおいて重要な役割を担っている。
画像キャプションの研究はまだ結論に達していない。
本研究の目的は,画像キャプション手法の包括的概要と分類を提供することである。
論文 参考訳(メタデータ) (2021-07-14T18:00:54Z) - Visually grounded models of spoken language: A survey of datasets,
architectures and evaluation techniques [15.906959137350247]
この調査は、過去20年間の音声言語の視覚的接地モデルの進化の概要を提供する。
我々は、この研究の多くを可能にした中心的な研究課題、開発スケジュール、データセットについて論じる。
論文 参考訳(メタデータ) (2021-04-27T14:32:22Z) - Bridging Vision and Language from the Video-to-Text Perspective: A
Comprehensive Review [1.0520692160489133]
本稿では,ビデオ・トゥ・テキスト問題に対する最先端技術の分類と解説を行う。
主なvideo-to-textメソッドとそのパフォーマンス評価方法をカバーする。
最先端の技術は、ビデオ記述の生成または取得における人間のようなパフォーマンスを達成するには、まだ長い道のりです。
論文 参考訳(メタデータ) (2021-03-27T02:12:28Z) - A Review of Speaker Diarization: Recent Advances with Deep Learning [78.20151731627958]
スピーカーダイアリゼーションは、スピーカーのアイデンティティに対応するクラスでオーディオまたはビデオ録画をラベル付けするタスクです。
ディープラーニング技術の台頭に伴い、話者ダイアリゼーションのためのさらなる急速な進歩がなされている。
話者ダイアリゼーションシステムが音声認識アプリケーションとどのように統合されているかについて議論する。
論文 参考訳(メタデータ) (2021-01-24T01:28:05Z) - Image Captioning as an Assistive Technology: Lessons Learned from VizWiz
2020 Challenge [25.218195374028756]
受賞した2020年キャプションコンペティションの理論と工学を詳述した作品です。
我々の研究は、補助画像キャプションシステムの改善に向けた一歩となる。
論文 参考訳(メタデータ) (2020-12-21T21:48:18Z) - Look Before you Speak: Visually Contextualized Utterances [88.58909442073858]
ビデオ中の発話を視覚的フレームと書き起こされた音声の両方を文脈として予測するタスクを作成する。
オンラインで多数の指導ビデオを活用することで、手動のアノテーションを必要とせずに、このタスクを大規模に解決するためのモデルを訓練する。
本モデルは,多数のダウンストリームビデオQAベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-12-10T14:47:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。