論文の概要: Towards few-shot isolated word reading assessment
- arxiv url: http://arxiv.org/abs/2507.12217v1
- Date: Wed, 16 Jul 2025 13:20:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.401397
- Title: Towards few-shot isolated word reading assessment
- Title(参考訳): 数発の孤立単語読解評価に向けて
- Authors: Reuben Smit, Retief Louw, Herman Kamper,
- Abstract要約: 低リソース環境における単語読解のためのASRフリー手法について検討する。
提案手法は,入力子音声を成人向け参照テンプレートの小さなセットと比較する。
低リソース音声タスクにおけるSSL表現の使用の成功にもかかわらず、我々の研究は、子データ処理におけるSSL表現の限界を強調している。
- 参考スコア(独自算出の注目度): 17.85337022148277
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We explore an ASR-free method for isolated word reading assessment in low-resource settings. Our few-shot approach compares input child speech to a small set of adult-provided reference templates. Inputs and templates are encoded using intermediate layers from large self-supervised learned (SSL) models. Using an Afrikaans child speech benchmark, we investigate design options such as discretising SSL features and barycentre averaging of the templates. Idealised experiments show reasonable performance for adults, but a substantial drop for child speech input, even with child templates. Despite the success of employing SSL representations in low-resource speech tasks, our work highlights the limitations of SSL representations for processing child data when used in a few-shot classification system.
- Abstract(参考訳): 低リソース環境における単語読解のためのASRフリー手法について検討する。
提案手法は,入力子音声を成人向け参照テンプレートの小さなセットと比較する。
入力とテンプレートは、大規模な自己教師付き学習(SSL)モデルの中間層を使って符号化される。
Afrikaansの児童音声ベンチマークを用いて、SSL機能やテンプレートのバリセント平均化などの設計オプションについて検討する。
理想的な実験は、大人には妥当なパフォーマンスを示すが、子どものテンプレートでさえ、子どもの音声入力は大幅に低下する。
低リソース音声タスクにおけるSSL表現の使用の成功にもかかわらず、我々の研究は、数ショットの分類システムで使用される場合、子データを処理するためのSSL表現の制限を強調している。
関連論文リスト
- SSLR: A Semi-Supervised Learning Method for Isolated Sign Language Recognition [2.409285779772107]
手話認識システムは手話のジェスチャーを認識し、それを音声言語に翻訳することを目的としている。
SLRの主な課題の1つは、注釈付きデータセットの不足である。
本研究では, 擬似ラベル法を用いたSLRの半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2025-04-23T11:59:52Z) - Performance Analysis of Speech Encoders for Low-Resource SLU and ASR in Tunisian Dialect [11.013934239276036]
自己教師付き学習(SSL)によって事前訓練された音声エンコーダは、様々な下流タスクにおいて顕著な性能を示した。
本稿では,低音源のチュニジア・アラビア方言の文脈におけるSSLアプローチの有効性を比較することで貢献する。
論文 参考訳(メタデータ) (2024-07-05T14:21:36Z) - MiniSUPERB: Lightweight Benchmark for Self-supervised Speech Models [90.99663022952498]
SuperBは自己教師付き学習(SSL)音声モデルの様々なタスクにおける一般化性を評価するために提案された。
SuperBは大規模なデータセットと多様なタスクのために高い計算コストを発生させる。
我々は,SUPERBに匹敵する結果のSSL音声モデルを効率よく評価する軽量ベンチマークであるMiniSUPERBを紹介する。
論文 参考訳(メタデータ) (2023-05-30T13:07:33Z) - Improving Textless Spoken Language Understanding with Discrete Units as
Intermediate Target [58.59044226658916]
Spoken Language Understanding (SLU) は、音声音声から意味情報を抽出することを目的としたタスクである。
本研究では,テキストレスSLUの性能向上のための中間ガイダンスとして離散単位を用いることを提案する。
論文 参考訳(メタデータ) (2023-05-29T14:00:24Z) - ProsAudit, a prosodic benchmark for self-supervised speech models [14.198508548718676]
ProsAuditは、自己教師付き学習(SSL)音声モデルにおける構造的韻律的知識を評価するためのベンチマークである。
2つのサブタスク、対応するメトリクス、評価データセットで構成される。
論文 参考訳(メタデータ) (2023-02-23T14:30:23Z) - Model Extraction Attack against Self-supervised Speech Models [52.81330435990717]
自己教師付き学習(SSL)音声モデルは、与えられたクリップの有意義な表現を生成する。
モデル抽出攻撃 (MEA) は、しばしば、クエリアクセスのみで被害者モデルの機能を盗む敵を指す。
本稿では,少数のクエリを用いたSSL音声モデルに対するMEA問題について検討する。
論文 参考訳(メタデータ) (2022-11-29T09:28:05Z) - SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z) - Combining Spectral and Self-Supervised Features for Low Resource Speech
Recognition and Translation [27.857955394020475]
自己教師付き学習(SSL)モデルは、様々なディープラーニングベースの音声タスクにうまく適用されている。
SSL表現の品質は、SSLトレーニングドメインとターゲットデータドメインの関連性に大きく依存します。
SFとSSLの表現を組み合わせるための学習可能かつ解釈可能なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-05T20:09:15Z) - An Exploration of Prompt Tuning on Generative Spoken Language Model for
Speech Processing Tasks [112.1942546460814]
生成音声言語モデル(GSLM)に基づく音声処理タスクの即時チューニングパラダイムの最初の検討について報告する。
実験結果から, 学習可能なパラメータが少ない音声分類タスクにおいて, 高精度なダウンストリームモデルよりも, 即時チューニング手法が競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-03-31T03:26:55Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - LeBenchmark: A Reproducible Framework for Assessing Self-Supervised
Representation Learning from Speech [63.84741259993937]
膨大なラベルのないデータを用いた自己教師付き学習(SSL)は、画像処理と自然言語処理に成功している。
最近の研究では、音声からSSLも調べた。
音声からSSLを評価する再現可能なフレームワークであるLeBenchmarkを提案する。
論文 参考訳(メタデータ) (2021-04-23T08:27:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。