論文の概要: Automated Audio Captioning: an Overview of Recent Progress and New
Challenges
- arxiv url: http://arxiv.org/abs/2205.05949v1
- Date: Thu, 12 May 2022 08:36:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 14:20:48.199468
- Title: Automated Audio Captioning: an Overview of Recent Progress and New
Challenges
- Title(参考訳): 音声キャプションの自動化:最近の進歩と課題
- Authors: Xinhao Mei, Xubo Liu, Mark D. Plumbley and Wenwu Wang
- Abstract要約: 自動音声キャプションは、与えられた音声クリップの自然言語記述を生成することを目的とした、モーダル横断翻訳タスクである。
本稿では、既存の様々なアプローチから評価指標やデータセットまで、自動音声キャプションにおけるコントリビューションの総合的なレビューを行う。
- 参考スコア(独自算出の注目度): 56.98522404673527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated audio captioning is a cross-modal translation task that aims to
generate natural language descriptions for given audio clips. This task has
received increasing attention with the release of freely available datasets in
recent years. The problem has been addressed predominantly with deep learning
techniques. Numerous approaches have been proposed, such as investigating
different neural network architectures, exploiting auxiliary information such
as keywords or sentence information to guide caption generation, and employing
different training strategies, which have greatly facilitated the development
of this field. In this paper, we present a comprehensive review of the
published contributions in automated audio captioning, from a variety of
existing approaches to evaluation metrics and datasets. Moreover, we discuss
open challenges and envisage possible future research directions.
- Abstract(参考訳): 自動音声キャプション(automated audio captioning)は、音声クリップに対して自然言語記述を生成するクロスモーダル翻訳タスクである。
このタスクは近年,無償で利用可能なデータセットのリリースによって注目を集めている。
この問題は、主にディープラーニング技術で解決されている。
異なるニューラルネットワークアーキテクチャを調査したり、キーワードや文情報などの補助情報を活用してキャプション生成を指導したり、この分野の発展を大いに促進したトレーニング戦略を用いるなど、多くのアプローチが提案されている。
本稿では,既存の評価指標やデータセットに対する様々なアプローチから,音声キャプションの自動生成における投稿の総合的なレビューを行う。
さらに,今後の課題と今後の研究の方向性について考察する。
関連論文リスト
- AnnoTheia: A Semi-Automatic Annotation Toolkit for Audio-Visual Speech
Technologies [0.0]
本稿では,シーンとそれに対応する書き起こしを検知するセミオートマチックなアノテーションツールキットAnnoTheiaを提案する。
興味のある言語のためのAnnoTheia作成の完全なプロセスを示すために,スペイン語に対するアクティブ話者検出のための事前学習モデルの適応についても述べる。
論文 参考訳(メタデータ) (2024-02-20T17:07:08Z) - A Whisper transformer for audio captioning trained with synthetic
captions and transfer learning [0.0]
本稿では,事前学習された音声-テキスト-Whisperモデルの使用と,合成キャプションによる事前学習に着目し,音声キャプションへのアプローチを提案する。
以上の結果から,異なる学習方法が音響キャプションモデルの性能に及ぼす影響が示唆された。
論文 参考訳(メタデータ) (2023-05-15T22:20:07Z) - Improving Natural-Language-based Audio Retrieval with Transfer Learning
and Audio & Text Augmentations [7.817685358710508]
本稿では,録音やテキストによる記述を共有音声空間に投影するシステムを提案する。
以上の結果から, 使用済み拡張戦略は過剰適合を低減し, 検索性能の向上を図っている。
さらに、AudioCapsデータセットで事前トレーニングを行うことで、さらなる改善がもたらされることを示す。
論文 参考訳(メタデータ) (2022-08-24T11:54:42Z) - Deep Learning for Visual Speech Analysis: A Survey [54.53032361204449]
本稿では,視覚音声分析におけるディープラーニング手法の最近の進歩を概観する。
私たちは、基本的な問題、課題、ベンチマークデータセット、既存のメソッドの分類、最先端のパフォーマンスなど、視覚音声のさまざまな側面をカバーしています。
論文 参考訳(メタデータ) (2022-05-22T14:44:53Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - From Show to Tell: A Survey on Image Captioning [48.98681267347662]
視覚と言語を結びつけることは、ジェネレーティブ・インテリジェンスにおいて重要な役割を担っている。
画像キャプションの研究はまだ結論に達していない。
本研究の目的は,画像キャプション手法の包括的概要と分類を提供することである。
論文 参考訳(メタデータ) (2021-07-14T18:00:54Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - Deep Audio-Visual Learning: A Survey [53.487938108404244]
現在の音声・視覚学習タスクを4つのサブフィールドに分割する。
本稿では,各サブフィールドに残る課題だけでなく,最先端の手法についても論じる。
一般的に使用されるデータセットとパフォーマンスメトリクスを要約します。
論文 参考訳(メタデータ) (2020-01-14T13:11:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。