論文の概要: StressTest: Can YOUR Speech LM Handle the Stress?
- arxiv url: http://arxiv.org/abs/2505.22765v1
- Date: Wed, 28 May 2025 18:32:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.477574
- Title: StressTest: Can YOUR Speech LM Handle the Stress?
- Title(参考訳): ストレステスト: LMはストレスに対処できるのか?
- Authors: Iddo Yosha, Gallil Maimon, Yossi Adi,
- Abstract要約: センセントストレス(Sentence stress)とは、音声の発声の中で特定の単語に重点を置いて、アイデアを強調したり、対比させたり、あるいは新しい情報を導入することを指す。
近年の音声認識言語モデル(SLM)の進歩により,音声の直接処理が可能になった。
意味形成や話者意図形成において文ストレスが重要な役割を担っているにもかかわらず、そのようなモデルの評価や開発において、ほとんど見落とされ続けている。
- 参考スコア(独自算出の注目度): 20.802090523583196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sentence stress refers to emphasis, placed on specific words within a spoken utterance to highlight or contrast an idea, or to introduce new information. It is often used to imply an underlying intention that is not explicitly stated. Recent advances in speech-aware language models (SLMs) have enabled direct processing of audio, allowing models to bypass transcription and access the full richness of the speech signal and perform audio reasoning tasks such as spoken question answering. Despite the crucial role of sentence stress in shaping meaning and speaker intent, it remains largely overlooked in evaluation and development of such models. In this work, we address this gap by introducing StressTest, a benchmark specifically designed to evaluate a model's ability to distinguish between interpretations of spoken sentences based on the stress pattern. We assess the performance of several leading SLMs and find that, despite their overall capabilities, they perform poorly on such tasks. To overcome this limitation, we propose a novel synthetic data generation pipeline, and create Stress17k, a training set that simulates change of meaning implied by stress variation. Then, we empirically show that optimizing models with this synthetic dataset aligns well with real-world recordings and enables effective finetuning of SLMs. Results suggest, that our finetuned model, StresSLM, significantly outperforms existing models on both sentence stress reasoning and detection tasks. Code, models, data, and audio samples - pages.cs.huji.ac.il/adiyoss-lab/stresstest.
- Abstract(参考訳): センセントストレス(Sentence stress)とは、音声の発声の中で特定の単語に置かれ、アイデアを強調または対比したり、新しい情報を導入することを指す。
明確に述べられていない根底にある意図を暗示するためにしばしば用いられる。
近年の音声認識言語モデル(SLM)の進歩により、音声の直接処理が可能となり、音声信号の書き起こしをバイパスし、音声信号の完全リッチ性にアクセスし、音声質問応答などの音声推論タスクを実行できるようになった。
意味形成や話者意図形成において文ストレスが重要な役割を担っているにもかかわらず、そのようなモデルの評価や開発において、ほとんど見落とされ続けている。
本研究では,ストレスパターンに基づく音声文の解釈を識別するモデルの能力を評価するためのベンチマークであるScressTestを導入することで,このギャップに対処する。
我々は,複数の主要なSLMの性能を評価し,その性能にもかかわらず,そのようなタスクでは性能が良くないことを確認した。
この制限を克服するために、新しい合成データ生成パイプラインを提案し、ストレス変動によって示唆される意味の変化をシミュレートするトレーニングセットであるScress17kを作成します。
そして,この合成データセットを用いたモデル最適化が実世界の記録とよく一致し,SLMを効果的に微調整できることを実証的に示す。
その結果,我々の微調整モデルであるStresSLMは,文ストレス推論と検出タスクの両方において,既存のモデルよりも大幅に優れていたことが示唆された。
コード、モデル、データ、オーディオサンプル - page.cs.huji.ac.il/adiyoss-lab/stresstest
関連論文リスト
- WHISTRESS: Enriching Transcriptions with Sentence Stress Detection [20.802090523583196]
音声言語における話者意図の伝達には, 文ストレスが不可欠である。
WHISTRESSは,文のストレス検出による書き起こしシステム拡張のためのアライメントフリーアプローチである。
TINYSTRESS-15KでWHISTRESSをトレーニングし、いくつかの競争ベースラインに対して評価する。
論文 参考訳(メタデータ) (2025-05-25T11:45:08Z) - SpeechPrompt: Prompting Speech Language Models for Speech Processing Tasks [94.10497337235083]
我々はまず,音声処理分野における音声 LM の促進の可能性を探る。
音声処理タスクを音声単位生成タスクに再構成する。
提案手法は, 強い微調整法と比較して, 競争性能を向上できることを示す。
論文 参考訳(メタデータ) (2024-08-23T13:00:10Z) - Detecting Syllable-Level Pronunciation Stress with A Self-Attention
Model [0.0]
話し言葉の音節ごとのストレスレベルを知ることは、英語話者や学習者にとって重要である。
本稿では,話し言葉の各音節のストレスレベルを同定する自己注意モデルを提案する。
論文 参考訳(メタデータ) (2023-11-01T05:05:49Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Minimally-Supervised Speech Synthesis with Conditional Diffusion Model
and Language Model: A Comparative Study of Semantic Coding [57.42429912884543]
Diff-LM-Speech, Tetra-Diff-Speech, Tri-Diff-Speechを提案する。
また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。
実験の結果,提案手法はベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T11:20:23Z) - Adapting an ASR Foundation Model for Spoken Language Assessment [40.402050390096456]
正確で信頼性の高い音声言語評価システムの重要な部分は、基礎となるASRモデルである。
近年、Whisperのような大規模な事前訓練されたASRファンデーションモデルが利用可能になっている。
これらのモデルでは、出力の反響やためらう傾向にある。
ここでは、候補者が言ったことを正確に書き起こす必要がある。
論文 参考訳(メタデータ) (2023-07-13T16:01:58Z) - An Exploration of Prompt Tuning on Generative Spoken Language Model for
Speech Processing Tasks [112.1942546460814]
生成音声言語モデル(GSLM)に基づく音声処理タスクの即時チューニングパラダイムの最初の検討について報告する。
実験結果から, 学習可能なパラメータが少ない音声分類タスクにおいて, 高精度なダウンストリームモデルよりも, 即時チューニング手法が競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-03-31T03:26:55Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。