論文の概要: StressTest: Can YOUR Speech LM Handle the Stress?
- arxiv url: http://arxiv.org/abs/2505.22765v2
- Date: Sun, 05 Oct 2025 12:21:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:58.432534
- Title: StressTest: Can YOUR Speech LM Handle the Stress?
- Title(参考訳): ストレステスト: LMはストレスに対処できるのか?
- Authors: Iddo Yosha, Gallil Maimon, Yossi Adi,
- Abstract要約: センセントストレス(Sentence stress)とは、アイデアを強調または対比するために、発声中の単語に重点を置くことを指す。
ストレスパターンに基づく音声の意味を識別するモデルの能力を評価するためのベンチマークであるScressTestを紹介する。
本研究では,新しいデータ生成パイプラインを提案し,ストレス変動によって示唆される意味の変化をシミュレートするトレーニングセットであるScress-17kを作成する。
- 参考スコア(独自算出の注目度): 30.973919141559644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sentence stress refers to emphasis on words within a spoken utterance to highlight or contrast an idea. It is often used to imply an underlying intention not explicitly stated. Recent speech-aware language models (SLMs) have enabled direct audio processing, allowing models to access the full richness of speech to perform audio reasoning tasks such as spoken question answering. Despite the crucial role of sentence stress in shaping meaning and intent, it remains largely overlooked in evaluation and development of SLMs. We address this gap by introducing StressTest, a benchmark designed to evaluate models' ability to distinguish between meanings of speech based on the stress pattern. We evaluate leading SLMs, and find that despite their overall capabilities, they perform poorly on such tasks. Hence, we propose a novel data generation pipeline, and create Stress-17k, a training set that simulates change of meaning implied by stress variation. Results suggest, that our finetuned model, StresSLM, generalizes well to real recordings and notably outperforms existing SLMs on sentence stress reasoning and detection. Models, code, data, samples - pages.cs.huji.ac.il/adiyoss-lab/stresstest.
- Abstract(参考訳): センセントストレス(Sentence stress)とは、アイデアを強調または対比するために、発声中の単語に重点を置くことを指す。
しばしば明示されていない根本的な意図を暗示するために使われる。
近年の音声認識言語モデル (SLM) により直接音声処理が可能となり, モデルが音声の豊かさにアクセスできるようになり, 音声質問応答などの音声推論タスクが実行できるようになった。
文ストレスが意味や意図を形作る上で重要な役割を担っているにもかかわらず、SLMの評価や開発においてほとんど見落とされ続けている。
ストレスパターンに基づく発話の意味を識別するモデルの能力を評価するためのベンチマークであるScressTestを導入することで、このギャップに対処する。
先行するSLMを評価し,全体的な能力に拘わらず,そのようなタスクでは不十分であることを確認した。
そこで我々は,新しいデータ生成パイプラインを提案し,ストレス変動によって示唆される意味の変化をシミュレートするトレーニングセットであるScress-17kを作成している。
以上の結果から,我々の微調整モデルであるStresSLMは実記録によく適応し,文のストレス推論と検出において既存のSLMよりも優れていたことが示唆された。
モデル、コード、データ、サンプル - page.cs.huji.ac.il/adiyoss-lab/stresstest
関連論文リスト
- Counterfactual reasoning: an analysis of in-context emergence [49.58529868457226]
大規模ニューラルネットワークモデル(LM)は、文脈内学習において顕著な性能を示す。
この研究は、言語モデルにおける文脈内対実的推論、すなわち仮説的シナリオの下での変化の結果を予測することを研究する。
論文 参考訳(メタデータ) (2025-06-05T16:02:07Z) - WHISTRESS: Enriching Transcriptions with Sentence Stress Detection [20.802090523583196]
音声言語における話者意図の伝達には, 文ストレスが不可欠である。
WHISTRESSは,文のストレス検出による書き起こしシステム拡張のためのアライメントフリーアプローチである。
TINYSTRESS-15KでWHISTRESSをトレーニングし、いくつかの競争ベースラインに対して評価する。
論文 参考訳(メタデータ) (2025-05-25T11:45:08Z) - SpeechPrompt: Prompting Speech Language Models for Speech Processing Tasks [94.10497337235083]
我々はまず,音声処理分野における音声 LM の促進の可能性を探る。
音声処理タスクを音声単位生成タスクに再構成する。
提案手法は, 強い微調整法と比較して, 競争性能を向上できることを示す。
論文 参考訳(メタデータ) (2024-08-23T13:00:10Z) - Detecting Syllable-Level Pronunciation Stress with A Self-Attention
Model [0.0]
話し言葉の音節ごとのストレスレベルを知ることは、英語話者や学習者にとって重要である。
本稿では,話し言葉の各音節のストレスレベルを同定する自己注意モデルを提案する。
論文 参考訳(メタデータ) (2023-11-01T05:05:49Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Minimally-Supervised Speech Synthesis with Conditional Diffusion Model
and Language Model: A Comparative Study of Semantic Coding [57.42429912884543]
Diff-LM-Speech, Tetra-Diff-Speech, Tri-Diff-Speechを提案する。
また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。
実験の結果,提案手法はベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T11:20:23Z) - Adapting an ASR Foundation Model for Spoken Language Assessment [40.402050390096456]
正確で信頼性の高い音声言語評価システムの重要な部分は、基礎となるASRモデルである。
近年、Whisperのような大規模な事前訓練されたASRファンデーションモデルが利用可能になっている。
これらのモデルでは、出力の反響やためらう傾向にある。
ここでは、候補者が言ったことを正確に書き起こす必要がある。
論文 参考訳(メタデータ) (2023-07-13T16:01:58Z) - Prompt Tuning of Deep Neural Networks for Speaker-adaptive Visual Speech Recognition [66.94463981654216]
話者適応型視覚音声認識(VSR)のためのディープニューラルネットワーク(DNN)の即時チューニング手法を提案する。
我々は、事前訓練されたモデルパラメータを変更する代わりに、ターゲット話者の適応データを微調整する。
提案手法の有効性を単語レベルのVSRデータベースと文レベルのVSRデータベースで評価した。
論文 参考訳(メタデータ) (2023-02-16T06:01:31Z) - An Exploration of Prompt Tuning on Generative Spoken Language Model for
Speech Processing Tasks [112.1942546460814]
生成音声言語モデル(GSLM)に基づく音声処理タスクの即時チューニングパラダイムの最初の検討について報告する。
実験結果から, 学習可能なパラメータが少ない音声分類タスクにおいて, 高精度なダウンストリームモデルよりも, 即時チューニング手法が競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-03-31T03:26:55Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。