論文の概要: Revisiting Interpolation Augmentation for Speech-to-Text Generation
- arxiv url: http://arxiv.org/abs/2406.15846v1
- Date: Sat, 22 Jun 2024 13:24:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 20:15:22.678756
- Title: Revisiting Interpolation Augmentation for Speech-to-Text Generation
- Title(参考訳): 音声テキスト生成のための補間強化の再検討
- Authors: Chen Xu, Jie Wang, Xiaoqian Liu, Qianqian Dong, Chunliang Zhang, Tong Xiao, Jingbo Zhu, Dapeng Man, Wu Yang,
- Abstract要約: 音声テキスト生成システム(S2T)は、低リソースシナリオにおいてしばしば課題に直面している。
新たなソリューションのひとつは、入力とラベルを補間することで、仮想トレーニングサンプルを構築することだ。
本稿では,いくつかの重要な疑問に導かれる拡張性について考察する。
- 参考スコア(独自算出の注目度): 45.255833976931456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech-to-text (S2T) generation systems frequently face challenges in low-resource scenarios, primarily due to the lack of extensive labeled datasets. One emerging solution is constructing virtual training samples by interpolating inputs and labels, which has notably enhanced system generalization in other domains. Despite its potential, this technique's application in S2T tasks has remained under-explored. In this paper, we delve into the utility of interpolation augmentation, guided by several pivotal questions. Our findings reveal that employing an appropriate strategy in interpolation augmentation significantly enhances performance across diverse tasks, architectures, and data scales, offering a promising avenue for more robust S2T systems in resource-constrained settings.
- Abstract(参考訳): 音声テキスト生成システム(S2T)は、主にラベル付きデータセットが不足しているため、低リソースシナリオでしばしば課題に直面している。
新たなソリューションの1つは、入力とラベルを補間することで仮想トレーニングサンプルを構築することである。
その可能性にも拘わらず、S2Tタスクにおけるこの手法の適用は、まだ未調査のままである。
本稿では,いくつかの重要な疑問に導かれる補間強化の有用性を探求する。
その結果,補間強化に適切な戦略を採用することで,各種タスクやアーキテクチャ,データスケールのパフォーマンスが大幅に向上し,資源制約下でのより堅牢なS2Tシステムの実現が期待できることがわかった。
関連論文リスト
- Dual-Hybrid Attention Network for Specular Highlight Removal [34.99543751199565]
画像やビデオの品質と解釈性を高めるため、マルチメディアアプリケーションにおいて特異ハイライト除去は重要な役割を担っている。
現在の最先端のアプローチは、しばしば追加の事前や監督に依存し、実用性と一般化能力を制限する。
本稿では、新しいハイブリッドアテンション機構を導入するエンドツーエンドネットワークであるDHAN-SHR(Dual-Hybrid Attention Network for Specular Highlightectomy)を提案する。
論文 参考訳(メタデータ) (2024-07-17T01:52:41Z) - Enhancing Interval Type-2 Fuzzy Logic Systems: Learning for Precision and Prediction Intervals [2.526146573337397]
高リスクシナリオにおける予測区間(PI)生成の課題に,インターバルタイプ2(IT2)ファジィ論理系(FLS)の学習のための拡張を提案する。
まず,KM(Karnik Takagi-Mendel)とNT(Nie-Tan)に設計の柔軟性を付加し,PI生成の柔軟性を向上させる。
大規模学習課題に対処するため,IT2-FLSの制約をパラメータ化トリックによって非制約形式に変換する。
論文 参考訳(メタデータ) (2024-04-19T11:37:51Z) - SDIF-DA: A Shallow-to-Deep Interaction Framework with Data Augmentation
for Multi-modal Intent Detection [31.28456539029398]
マルチモーダルインテント検出における2つの課題は、モダリティの異なる特徴と限定ラベル付きマルチモーダルインテントトレーニングデータをどのように調整し、融合させるかである。
以上の課題に対処するため,データ拡張(F-DA)を用いた浅層間相互作用フレームワークを提案する。
実験結果から,SDIF-DAは最先端性能を達成し,マルチモーダル特徴を効果的に整合・融合できることが示された。
論文 参考訳(メタデータ) (2023-12-31T08:33:37Z) - ADASR: An Adversarial Auto-Augmentation Framework for Hyperspectral and
Multispectral Data Fusion [54.668445421149364]
HSI(Deep Learning-based Hyperspectral Image)は、HSI(Hyperspectral Image)とMSI(Multispectral Image)を深層ニューラルネットワーク(DNN)に融合させることにより、高空間分解能HSI(HR-HSI)を生成することを目的としている。
本稿では, HSI-MSI 融合のためのデータ多様性を向上するために, HSI-MSI サンプルペアの自動最適化と拡張を行う新しい逆自動データ拡張フレームワーク ADASR を提案する。
論文 参考訳(メタデータ) (2023-10-11T07:30:37Z) - Learning towards Selective Data Augmentation for Dialogue Generation [52.540330534137794]
すべての事例が増補作業に有益である訳ではなく、増補に適した事例は以下の2つの属性に従うべきであると我々は主張する。
応答生成タスクに対してSDA(Selective Data Augmentation framework)を提案する。
論文 参考訳(メタデータ) (2023-03-17T01:26:39Z) - Multi-Content Interaction Network for Few-Shot Segmentation [37.80624074068096]
Few-Shot COCOは、サポート画像の制限とクラス内における大きな相違に挑戦している。
この問題を解決するために,MCINet(Multi-Content Interaction Network)を提案する。
MCINetは、他のクエリブランチから低レベルの構造情報を高レベルのセマンティック機能に組み込むことで、FSSを改善している。
論文 参考訳(メタデータ) (2023-03-11T04:21:59Z) - Learning Multimodal Data Augmentation in Feature Space [65.54623807628536]
LeMDAは、機能空間におけるマルチモーダルデータを共同で拡張することを自動的に学習する、使い易い方法である。
我々はLeMDAがマルチモーダルディープラーニングアーキテクチャの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-12-29T20:39:36Z) - Self-Supervised Graph Neural Network for Multi-Source Domain Adaptation [51.21190751266442]
ドメイン適応(DA)は、テストデータがトレーニングデータの同じ分布に完全に従わない場合に、シナリオに取り組む。
大規模未ラベルサンプルから学習することで、自己教師型学習がディープラーニングの新しいトレンドとなっている。
我々は,より効果的なタスク間情報交換と知識共有を実現するために,新しい textbfSelf-textbf Supervised textbfGraph Neural Network (SSG) を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:56Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。