論文の概要: Continual Learning for Automated Audio Captioning Using The Learning
Without Forgetting Approach
- arxiv url: http://arxiv.org/abs/2107.08028v1
- Date: Fri, 16 Jul 2021 17:44:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-19 14:25:09.943506
- Title: Continual Learning for Automated Audio Captioning Using The Learning
Without Forgetting Approach
- Title(参考訳): 留意点のない学習を用いた自動音声キャプションの連続学習
- Authors: Jan Berg and Konstantinos Drossos
- Abstract要約: 本稿では,AAC法を新たな情報に適用するための最初のアプローチについて,連続学習法を用いて提案する。
提案手法は,AAC法と2つのAACデータセットを用いて,利用可能かつ最適化されたAAC法を用いて評価する。
- 参考スコア(独自算出の注目度): 4.962199635155534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated audio captioning (AAC) is the task of automatically creating
textual descriptions (i.e. captions) for the contents of a general audio
signal. Most AAC methods are using existing datasets to optimize and/or
evaluate upon. Given the limited information held by the AAC datasets, it is
very likely that AAC methods learn only the information contained in the
utilized datasets. In this paper we present a first approach for continuously
adapting an AAC method to new information, using a continual learning method.
In our scenario, a pre-optimized AAC method is used for some unseen general
audio signals and can update its parameters in order to adapt to the new
information, given a new reference caption. We evaluate our method using a
freely available, pre-optimized AAC method and two freely available AAC
datasets. We compare our proposed method with three scenarios, two of training
on one of the datasets and evaluating on the other and a third of training on
one dataset and fine-tuning on the other. Obtained results show that our method
achieves a good balance between distilling new knowledge and not forgetting the
previous one.
- Abstract(参考訳): 自動音声キャプション(AAC)は、テキスト記述を自動的に生成するタスクである。
キャプション) 一般音声信号の内容について。
ほとんどのaacメソッドは既存のデータセットを使用して最適化や評価を行っている。
AACデータセットが保持する限られた情報を考えると、AACメソッドは利用したデータセットに含まれる情報のみを学習する可能性が高い。
本稿では,連続学習法を用いて新たな情報にaac法を連続的に適用する最初の手法を提案する。
本シナリオでは,未認識の一般音声信号に対して事前最適化されたaac法が用いられ,新たな参照キャプションが与えられた場合,新たな情報に適応するためにパラメータを更新できる。
本手法は,プリ最適化されたaac法と2つのaacデータセットを用いて評価する。
提案手法を3つのシナリオと比較し,一方のデータセットでトレーニングを2回,他方のデータセットでトレーニングを3分の1,もう一方のデータセットで微調整を行った。
得られた結果から,本手法は新たな知識を蒸留し,過去の知識を忘れないことのバランスが良好であることがわかった。
関連論文リスト
- Enhancing Automated Audio Captioning via Large Language Models with Optimized Audio Encoding [30.46616330202622]
自動音声キャプション(英: Automated Audio Casting, AAC)は、自然言語で音声を記述するための音声からテキストへのタスクである。
大規模言語モデル(LLM)の最近の進歩は、AACを改善する可能性を広げている。
提案手法は,DCASE 2023 Task 6Aの勝者よりも優れた33.0 SPIDEr-FLスコアを得る。
論文 参考訳(メタデータ) (2024-06-19T07:09:46Z) - Adaptive Rentention & Correction for Continual Learning [114.5656325514408]
連続学習における一般的な問題は、最新のタスクに対する分類層のバイアスである。
アダプティブ・リテンション・アンド・コレクション (ARC) のアプローチを例に挙げる。
ARCはCIFAR-100とImagenet-Rのデータセットで平均2.7%と2.6%のパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2024-05-23T08:43:09Z) - DST-Det: Simple Dynamic Self-Training for Open-Vocabulary Object Detection [72.25697820290502]
この研究は、ゼロショット分類によって潜在的に新しいクラスを特定するための単純かつ効率的な戦略を導入する。
このアプローチは、アノテーションやデータセット、再学習を必要とせずに、新しいクラスのリコールと精度を高めるセルフトレーニング戦略として言及する。
LVIS、V3Det、COCOを含む3つのデータセットに対する実証的な評価は、ベースラインのパフォーマンスを大幅に改善したことを示している。
論文 参考訳(メタデータ) (2023-10-02T17:52:24Z) - Weakly-supervised Automated Audio Captioning via text only training [1.504795651143257]
本稿では,テキストデータと事前学習されたCLAPモデルのみを前提として,AACモデルをトレーニングするための弱い教師付きアプローチを提案する。
提案手法をClosoとAudioCapsのデータセット上で評価し,完全に教師されたアプローチと比較して,最大83%の相対的な性能を実現する能力を示した。
論文 参考訳(メタデータ) (2023-09-21T16:40:46Z) - Exploring Meta Information for Audio-based Zero-shot Bird Classification [113.17261694996051]
本研究では,メタ情報を用いてゼロショット音声分類を改善する方法について検討する。
我々は,多種多様なメタデータが利用可能であることから,鳥種を例として用いている。
論文 参考訳(メタデータ) (2023-09-15T13:50:16Z) - Efficient Audio Captioning Transformer with Patchout and Text Guidance [74.59739661383726]
本稿では, [1] で提案した Patchout を利用したフルトランスフォーマーアーキテクチャを提案する。
キャプション生成は、事前訓練された分類モデルにより抽出されたテキストオーディオセットタグに部分的に条件付けされる。
提案手法は,DCASE Challenge 2022のタスク6Aで審査員賞を受賞している。
論文 参考訳(メタデータ) (2023-04-06T07:58:27Z) - Learning Phone Recognition from Unpaired Audio and Phone Sequences Based
on Generative Adversarial Network [58.82343017711883]
そこで本研究では,不適切な音声系列や発話から直接学習する方法について検討する。
GAN訓練を第1段階に導入し,無声音声と音声シーケンスのマッピング関係を求める。
第2段階では、発電機の出力からトレーニングするために別のHMMモデルが導入され、性能が向上する。
論文 参考訳(メタデータ) (2022-07-29T09:29:28Z) - Interactive Audio-text Representation for Automated Audio Captioning
with Contrastive Learning [25.06635361326706]
インタラクティブなモダリティ表現を学習するための,CLIP-AACと呼ばれる新しいAACシステムを提案する。
提案するCLIP-AACでは,事前学習エンコーダにオーディオヘッドとテキストヘッドを導入し,音声テキスト情報を抽出する。
また、音声信号と2つの字幕の対応を学習することで、ドメイン差を狭めるためにコントラスト学習を適用する。
論文 参考訳(メタデータ) (2022-03-29T13:06:46Z) - Joint Speech Recognition and Audio Captioning [37.205642807313545]
室内と屋外の両方で録音された音声サンプルは、しばしば二次音源で汚染される。
自動音声キャプション(AAC)の進展する分野と、徹底的に研究された自動音声認識(ASR)を一体化することを目的としている。
本稿では,ASRタスクとAACタスクのエンドツーエンド共同モデリングのためのいくつかのアプローチを提案する。
論文 参考訳(メタデータ) (2022-02-03T04:42:43Z) - Automatic Curation of Large-Scale Datasets for Audio-Visual
Representation Learning [62.47593143542552]
本稿では,自動データセットキュレーションのためのサブセット最適化手法について述べる。
本研究では,高視聴覚対応の映像を抽出し,自己監視モデルが自動的に構築されているにもかかわらず,既存のスケールのビデオデータセットと類似したダウンストリームパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2021-01-26T14:27:47Z) - WaveTransformer: A Novel Architecture for Audio Captioning Based on
Learning Temporal and Time-Frequency Information [20.153258692295278]
本稿では,音声における時間的・時間的パターンの活用に焦点を当てた新しいAAC手法を提案する。
音声符号化には3つの学習可能なプロセスを使用し、2つは局所的および時間的情報を抽出し、もう1つは前の2つのプロセスの出力をマージする。
これまでに報告された最も高いSPIDErは16.2から17.3に増加した。
論文 参考訳(メタデータ) (2020-10-21T16:02:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。