論文の概要: Improving Audio Caption Fluency with Automatic Error Correction
- arxiv url: http://arxiv.org/abs/2306.10090v1
- Date: Fri, 16 Jun 2023 13:37:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 00:25:27.114629
- Title: Improving Audio Caption Fluency with Automatic Error Correction
- Title(参考訳): 自動誤り訂正による音声キャプション変動の改善
- Authors: Hanxue Zhang, Zeyu Xie, Xuenan Xu, Mengyue Wu, Kai Yu
- Abstract要約: 本稿では,AAC出力後処理のための新しいAAC誤り訂正タスクを提案する。
我々は、観察に基づく規則を用いて、誤りのない字幕を破損させ、疑似文法的誤文生成を行う。
我々は、合成エラーデータセットに基づいてニューラルネットワークベースのモデルをトレーニングし、AAC出力の実際のエラーを修正するためにモデルを適用する。
- 参考スコア(独自算出の注目度): 23.157732462075547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated audio captioning (AAC) is an important cross-modality translation
task, aiming at generating descriptions for audio clips. However, captions
generated by previous AAC models have faced ``false-repetition'' errors due to
the training objective. In such scenarios, we propose a new task of AAC error
correction and hope to reduce such errors by post-processing AAC outputs. To
tackle this problem, we use observation-based rules to corrupt captions without
errors, for pseudo grammatically-erroneous sentence generation. One pair of
corrupted and clean sentences can thus be used for training. We train a neural
network-based model on the synthetic error dataset and apply the model to
correct real errors in AAC outputs. Results on two benchmark datasets indicate
that our approach significantly improves fluency while maintaining semantic
information.
- Abstract(参考訳): 自動音声キャプション(AAC)は,音声クリップの記述を生成することを目的とした,モーダリティ間の翻訳作業である。
しかし、前回のaacモデルによるキャプションは、訓練目的のために「false-repetition」の誤りに直面した。
このようなシナリオでは、aacエラー訂正の新たなタスクを提案し、処理後のaac出力によるエラー低減を期待する。
この問題に対処するために, 疑似文法的誤用文生成のために, 観察に基づく規則を用いて, 誤りのないキャプションを分解する。
したがって、1対の腐敗したクリーンな文がトレーニングに使用できる。
合成誤りデータセット上でニューラルネットワークベースのモデルをトレーニングし,aac出力の実誤差を補正するためにモデルを適用する。
2つのベンチマークデータセットの結果から,本手法は意味情報を維持しながら流速を著しく改善することが示された。
関連論文リスト
- Autoregressive Speech Synthesis without Vector Quantization [135.4776759536272]
テキストから音声合成(TTS)のための新しい連続値トークンに基づく言語モデリング手法であるMELLEを提案する。
MELLEはテキスト条件から直接連続メル-スペクトログラムフレームを自動回帰生成する。
論文 参考訳(メタデータ) (2024-07-11T14:36:53Z) - Parameter-tuning-free data entry error unlearning with adaptive
selective synaptic dampening [51.34904967046097]
本稿では,パラメータチューニングの必要性を排除した選択的シナプス減衰アンラーニング法の拡張を提案する。
本稿では,ResNet18とVision Transformerの未学習タスクにおける適応選択的シナプス減衰(ASSD)の性能を示す。
このアプローチの適用は、サプライチェーン管理などの産業環境において特に魅力的である。
論文 参考訳(メタデータ) (2024-02-06T14:04:31Z) - Optimized Tokenization for Transcribed Error Correction [10.297878672883973]
本研究では, 合成データのみを用いたトレーニングにより, 補正モデルの性能を著しく向上させることができることを示す。
具体的には、一組の転写データから得られた誤差分布を用いて生成された合成データが、ランダムな摂動を適用する一般的な手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-16T12:14:21Z) - Do You Remember? Overcoming Catastrophic Forgetting for Fake Audio
Detection [54.20974251478516]
本稿では,破滅的な忘れを克服するために,偽音声検出のための連続学習アルゴリズムを提案する。
検出ネットワークを微調整する場合,本手法では,真の発話と偽発話の比率に応じて,重み付けの方向を適応的に計算する。
本手法は,音声の感情認識などの関連分野に容易に一般化できる。
論文 参考訳(メタデータ) (2023-08-07T05:05:49Z) - Efficient Audio Captioning Transformer with Patchout and Text Guidance [74.59739661383726]
本稿では, [1] で提案した Patchout を利用したフルトランスフォーマーアーキテクチャを提案する。
キャプション生成は、事前訓練された分類モデルにより抽出されたテキストオーディオセットタグに部分的に条件付けされる。
提案手法は,DCASE Challenge 2022のタスク6Aで審査員賞を受賞している。
論文 参考訳(メタデータ) (2023-04-06T07:58:27Z) - ASR Error Detection via Audio-Transcript entailment [1.3750624267664155]
音声書き起こしエンターメントを用いたASR誤り検出のためのエンドツーエンドアプローチを提案する。
提案モデルでは,音響エンコーダと言語エンコーダを用いて,それぞれ音声と転写をモデル化する。
提案モデルでは,すべての転写誤りに対して26.2%,医学的誤りに対して23%の分類誤り率(CER)を達成し,それぞれ12%と15.4%の強い基準値を改善することができた。
論文 参考訳(メタデータ) (2022-07-22T02:47:15Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - CL4AC: A Contrastive Loss for Audio Captioning [43.83939284740561]
CL4AC(Contrastive Loss for Audio Captioning)と呼ばれる新しいエンコーダデコーダフレームワークを提案する。
CL4ACでは、元の音声テキストペアデータから導出される自己超越信号を用いて、音声とテキストの対応を利用する。
提案手法の有効性を示すため,Closoデータセット上で実験を行った。
論文 参考訳(メタデータ) (2021-07-21T10:13:02Z) - Empirical Error Modeling Improves Robustness of Noisy Neural Sequence
Labeling [26.27504889360246]
本稿では,誤りのないテキストから誤文への変換を訓練したシーケンス・ツー・シーケンスモデルを用いた経験的誤り生成手法を提案する。
テキスト入力が不完全である場合にさらに悪化するデータ空間の問題に対処するため,ノイズの多い言語モデルによる埋め込みを学習した。
提案手法は, 誤り系列ラベリングデータセットのベースラインノイズ発生と誤り訂正技術より優れていた。
論文 参考訳(メタデータ) (2021-05-25T12:15:45Z) - A Self-Refinement Strategy for Noise Reduction in Grammatical Error
Correction [54.569707226277735]
既存の文法的誤り訂正(GEC)のアプローチは、手動で作成したGECデータセットによる教師あり学習に依存している。
誤りが不適切に編集されたり、修正されなかったりする「ノイズ」は無視できないほどある。
本稿では,既存のモデルの予測整合性を利用して,これらのデータセットをデノマイズする自己補充手法を提案する。
論文 参考訳(メタデータ) (2020-10-07T04:45:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。