論文の概要: Efficient data selection employing Semantic Similarity-based Graph
Structures for model training
- arxiv url: http://arxiv.org/abs/2402.14888v1
- Date: Thu, 22 Feb 2024 09:43:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 16:52:21.390839
- Title: Efficient data selection employing Semantic Similarity-based Graph
Structures for model training
- Title(参考訳): セマンティック類似性に基づくグラフ構造を用いたモデル学習のための効率的なデータ選択
- Authors: Roxana Petcu and Subhadeep Maji
- Abstract要約: 本稿では,SeSaME(Semantics for Data SAliency in Model Performance Estimation)を紹介する。
これはテキスト情報のみに基づく効率的なデータサンプリング機構であり、計算量の多いモデルにデータを渡すことなく利用できる。
このアプローチの適用例は、低リソース自動音声認識(ASR)モデルの使用例で示される。
- 参考スコア(独自算出の注目度): 1.5845679507219355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent developments in natural language processing (NLP) have highlighted the
need for substantial amounts of data for models to capture textual information
accurately. This raises concerns regarding the computational resources and time
required for training such models. This paper introduces Semantics for data
SAliency in Model performance Estimation (SeSaME). It is an efficient data
sampling mechanism solely based on textual information without passing the data
through a compute-heavy model or other intensive pre-processing
transformations. The application of this approach is demonstrated in the use
case of low-resource automated speech recognition (ASR) models, which
excessively rely on text-to-speech (TTS) calls when using augmented data.
SeSaME learns to categorize new incoming data points into speech recognition
difficulty buckets by employing semantic similarity-based graph structures and
discrete ASR information from homophilous neighbourhoods through message
passing. The results indicate reliable projections of ASR performance, with a
93% accuracy increase when using the proposed method compared to random
predictions, bringing non-trivial information on the impact of textual
representations in speech models. Furthermore, a series of experiments show
both the benefits and challenges of using the ASR information on incoming data
to fine-tune the model. We report a 7% drop in validation loss compared to
random sampling, 7% WER drop with non-local aggregation when evaluating against
a highly difficult dataset, and 1.8% WER drop with local aggregation and high
semantic similarity between datasets.
- Abstract(参考訳): 自然言語処理(NLP)の最近の進歩は、テキスト情報を正確にキャプチャするモデルのための大量のデータの必要性を強調している。
これにより、そのようなモデルのトレーニングに必要な計算資源と時間に関する懸念が高まる。
本稿では,SeSaME(Semantics for Data SAliency in Model Performance Estimation)を提案する。
計算量の多いモデルや他の集中的な前処理変換を通さずに、テキスト情報のみに基づいて効率的なデータサンプリング機構である。
提案手法の適用例は,拡張データを用いた場合,テキスト音声(TTS)コールに過度に依存する低リソース自動音声認識(ASR)モデルの場合である。
セサミは、意味的類似性に基づくグラフ構造と、同系の隣人からの離散的なasr情報を用いて、新たな入力データポイントを音声認識の難易度バケットに分類することを学ぶ。
その結果, 音声モデルにおけるテキスト表現の影響について非自明な情報をもたらすため, ランダム予測と比較すると, 93%の精度で予測精度が向上することがわかった。
さらに、一連の実験では、入力データにASR情報を使用してモデルを微調整する際の利点と課題が示されている。
ランダムサンプリングに比べて7%のバリデーション損失が減少し,非局所的なアグリゲーションが7%,非局所的なアグリゲーションが1.8%,局所的なアグリゲーションとデータセット間のセマンティックな類似性が1.8%であった。
関連論文リスト
- Dynamic Data Pruning for Automatic Speech Recognition [58.95758272440217]
ASR(DDP-ASR)のダイナミック・データ・プルーニング(Dynamic Data Pruning for ASR)を導入し,音声関連データセットに特化して微細なプルーニングの粒度を提供する。
実験の結果,DDP-ASRは最大1.6倍のトレーニング時間を節約できることがわかった。
論文 参考訳(メタデータ) (2024-06-26T14:17:36Z) - Retrieval-based Disentangled Representation Learning with Natural
Language Supervision [61.75109410513864]
本稿では,VDR(Vocabulary Disentangled Retrieval)を提案する。
提案手法では,両エンコーダモデルを用いて語彙空間におけるデータと自然言語の両方を表現する。
論文 参考訳(メタデータ) (2022-12-15T10:20:42Z) - Self-augmented Data Selection for Few-shot Dialogue Generation [18.794770678708637]
我々は,MR-to-Text生成問題に対処するために,自己学習フレームワークを採用する。
我々は,我々の生成モデルが最も不確実なデータを選択するための新しいデータ選択戦略を提案する。
論文 参考訳(メタデータ) (2022-05-19T16:25:50Z) - A Complementary Joint Training Approach Using Unpaired Speech and Text
for Low-Resource Automatic Speech Recognition [25.473191378558138]
非ペアデータを利用して、一般的なシーケンス・ツー・シーケンスモデルをトレーニングする。
音声-疑似ラベルペアと合成音声テキストペアの相補性に着想を得て,補足的関節訓練(CJT)法を提案する。
論文 参考訳(メタデータ) (2022-04-05T07:02:53Z) - Listen, Adapt, Better WER: Source-free Single-utterance Test-time
Adaptation for Automatic Speech Recognition [65.84978547406753]
Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。
単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
論文 参考訳(メタデータ) (2022-03-27T06:38:39Z) - Representative Subset Selection for Efficient Fine-Tuning in
Self-Supervised Speech Recognition [6.450618373898492]
ASRのための自己教師型音声モデルにおいて、効率的な微調整を行うために最適なデータのサブセットを同定する作業を検討する。
自己教師型ASRにおける代表サブセット選択のためのCOWERAGEアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-18T10:12:24Z) - Towards Synthetic Multivariate Time Series Generation for Flare
Forecasting [5.098461305284216]
データ駆動・レアイベント予測アルゴリズムのトレーニングにおける制限要因の1つは、関心のあるイベントの不足である。
本研究では,データインフォームド・オーバーサンプリングを行う手段として,条件付き生成逆数ネットワーク(CGAN)の有用性を検討する。
論文 参考訳(メタデータ) (2021-05-16T22:23:23Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z) - Negative Data Augmentation [127.28042046152954]
負のデータ拡張サンプルは、データ分散のサポートに関する情報を提供することを示す。
我々は、NDAを識別器の合成データの追加源として利用する新しいGAN訓練目標を提案する。
実験により,本手法で訓練したモデルでは,異常検出能力の向上とともに条件付き・条件付き画像生成の改善を実現している。
論文 参考訳(メタデータ) (2021-02-09T20:28:35Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。