論文の概要: Automated Audio Captioning with Epochal Difficult Captions for
Curriculum Learning
- arxiv url: http://arxiv.org/abs/2206.01918v1
- Date: Sat, 4 Jun 2022 06:42:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-12 11:56:51.227870
- Title: Automated Audio Captioning with Epochal Difficult Captions for
Curriculum Learning
- Title(参考訳): カリキュラム学習のためのEpochal Difficult Captionsを用いた自動音声キャプション
- Authors: Andrew Koh, Soham Tiwari, Chng Eng Siong
- Abstract要約: Epochal Difficult Captionsはキーワード推定タスクのエレガントな進化である。
カリキュラムと現在のエポックの機能として決定される難易度に基づいて、ターゲットキャプションを変更する。
Epochal Difficult Captionsを使用することで、常にパフォーマンスが向上することを示す。
- 参考スコア(独自算出の注目度): 0.17188280334580194
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose an algorithm, Epochal Difficult Captions, to
supplement the training of any model for the Automated Audio Captioning task.
Epochal Difficult Captions is an elegant evolution to the keyword estimation
task that previous work have used to train the encoder of the AAC model.
Epochal Difficult Captions modifies the target captions based on a curriculum
and a difficulty level determined as a function of current epoch. Epochal
Difficult Captions can be used with any model architecture and is a lightweight
function that does not increase training time. We test our results on three
systems and show that using Epochal Difficult Captions consistently improves
performance
- Abstract(参考訳): 本稿では,自動音声キャプションタスクにおける任意のモデルのトレーニングを補完するアルゴリズム,Epochal Difficult Captionsを提案する。
Epochal Difficult Captionsは、AACモデルのエンコーダをトレーニングするために以前の作業で使用したキーワード推定タスクのエレガントな進化である。
Epochal Difficult Captionsは、カリキュラムと現在のエポックの機能として決定される難易度に基づいて、ターゲットキャプションを変更する。
Epochal Difficult Captionsは任意のモデルアーキテクチャで使用することができ、トレーニング時間を短縮しない軽量機能である。
実験の結果を3つのシステムで検証し,Epochal Difficult Captionsの使用が常に性能を向上させることを示す。
関連論文リスト
- AVCap: Leveraging Audio-Visual Features as Text Tokens for Captioning [24.608569008975497]
AVCap(Audio-Visual Captioning framework)を提案する。
AVCapは音声視覚機能をテキストトークンとして利用する。
提案手法は,既存の音声・視覚のキャプション手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-07-10T16:17:49Z) - Improving Self-supervised Pre-training using Accent-Specific Codebooks [48.409296549372414]
自己教師型学習のためのアクセント認識適応技術
Mozilla Common Voiceデータセットでは、提案手法は他のアクセント適応手法よりも優れています。
論文 参考訳(メタデータ) (2024-07-04T08:33:52Z) - Weakly-supervised Automated Audio Captioning via text only training [1.504795651143257]
本稿では,テキストデータと事前学習されたCLAPモデルのみを前提として,AACモデルをトレーニングするための弱い教師付きアプローチを提案する。
提案手法をClosoとAudioCapsのデータセット上で評価し,完全に教師されたアプローチと比較して,最大83%の相対的な性能を実現する能力を示した。
論文 参考訳(メタデータ) (2023-09-21T16:40:46Z) - Tem-adapter: Adapting Image-Text Pretraining for Video Question Answer [79.20605034378187]
ビデオ言語事前学習モデルは、ビデオ質問応答タスクの指導において顕著な成功を収めている。
ビデオシーケンスの長さのため、大規模なビデオベースモデルのトレーニングは、画像ベースモデルのトレーニングよりもかなりコストがかかる。
これは、画像ドメインとビデオドメインの間に明らかなギャップがあるにもかかわらず、画像ベースの事前学習からの知識を活用する動機となります。
論文 参考訳(メタデータ) (2023-08-16T15:00:50Z) - TVTSv2: Learning Out-of-the-box Spatiotemporal Visual Representations at
Scale [59.01246141215051]
言語指導の観点から,その劣化要因を分析した。
本稿では,テキストエンコーダの一般化能力を維持するために,教師なし事前学習戦略を提案する。
最大10億のパラメータを持つTVTSv2と呼ばれる一連のモデルを作成します。
論文 参考訳(メタデータ) (2023-05-23T15:44:56Z) - Noise-Robust Dense Retrieval via Contrastive Alignment Post Training [89.29256833403167]
Contrastive Alignment POst Training (CAPOT) は、指数再生を必要とせず、モデルロバスト性を改善する高効率な微調整法である。
CAPOTはドキュメントエンコーダを凍結することで堅牢な検索を可能にし、クエリエンコーダはノイズの多いクエリを修正されていないルートに整列させる。
MSMARCO、Natural Questions、Trivia QAパス検索のCAPOTノイズ変動を評価し、CAPOTがオーバーヘッドを伴わないデータ増大に類似した影響があることを発見した。
論文 参考訳(メタデータ) (2023-04-06T22:16:53Z) - DeCap: Decoding CLIP Latents for Zero-Shot Captioning via Text-Only
Training [73.74291217502928]
ゼロショットキャプションのための単純なフレームワークであるDeCapを提案する。
軽量な視覚認識言語デコーダを提案する。
視覚的な埋め込みはCLIPテキスト埋め込み空間に投影するが、投影された埋め込みは視覚的な入力の情報を保持する。
論文 参考訳(メタデータ) (2023-03-06T11:02:47Z) - Curriculum optimization for low-resource speech recognition [4.803994937990389]
本稿では,学習事例の順序を最適化する自動カリキュラム学習手法を提案する。
様々な雑音条件下で生音声のスコアリング機能として使用できる圧縮比と呼ばれる新しい難易度尺度を導入する。
論文 参考訳(メタデータ) (2022-02-17T19:47:50Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - Training Robust Zero-Shot Voice Conversion Models with Self-supervised
Features [24.182732872327183]
Unsampling Zero-Shot Voice Conversion (VC) は、発話の話者特性を未確認のターゲット話者に合わせるように修正することを目的としている。
長さ再構成デコーダを用いて高品質なオーディオサンプルを作成可能であることを示す。
論文 参考訳(メタデータ) (2021-12-08T17:27:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。