論文の概要: The Role of Prosody in Spoken Question Answering
- arxiv url: http://arxiv.org/abs/2502.05389v1
- Date: Sat, 08 Feb 2025 00:11:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:33:05.975576
- Title: The Role of Prosody in Spoken Question Answering
- Title(参考訳): 音声質問応答における韻律の役割
- Authors: Jie Chi, Maureen de Seyssel, Natalie Schluter,
- Abstract要約: 音声質問応答における韻律の役割について検討する。
語彙情報が手に入ると、モデルは主としてそれに依存する傾向にある。
- 参考スコア(独自算出の注目度): 3.4910890481978076
- License:
- Abstract: Spoken language understanding research to date has generally carried a heavy text perspective. Most datasets are derived from text, which is then subsequently synthesized into speech, and most models typically rely on automatic transcriptions of speech. This is to the detriment of prosody--additional information carried by the speech signal beyond the phonetics of the words themselves and difficult to recover from text alone. In this work, we investigate the role of prosody in Spoken Question Answering. By isolating prosodic and lexical information on the SLUE-SQA-5 dataset, which consists of natural speech, we demonstrate that models trained on prosodic information alone can perform reasonably well by utilizing prosodic cues. However, we find that when lexical information is available, models tend to predominantly rely on it. Our findings suggest that while prosodic cues provide valuable supplementary information, more effective integration methods are required to ensure prosody contributes more significantly alongside lexical features.
- Abstract(参考訳): 今までの音声言語理解の研究は、一般的にテキストの視点が強かった。
ほとんどのデータセットはテキストから派生したもので、その後音声に合成される。
これは、音声信号によって伝達される韻律的付加情報が、単語自体の音韻性を超えて減少し、テキストからのみ回復することが困難であることを意味する。
本研究では,音声質問応答における韻律の役割について検討する。
自然言語からなるSLUE-SQA-5データセットの韻律情報と語彙情報を分離することにより、韻律情報のみに基づいて訓練されたモデルが韻律的手がかりを利用して合理的に動作できることを実証する。
しかし、語彙情報が手に入ると、モデルは主としてそれに依存する傾向にある。
以上の結果から,韻律的手がかりは貴重な補足情報を提供する一方で,韻律が語彙的特徴とより深く寄与することを保証するために,より効果的な統合手法が必要であることが示唆された。
関連論文リスト
- Surprise! Uniform Information Density Isn't the Whole Story: Predicting Surprisal Contours in Long-form Discourse [54.08750245737734]
話者は、階層的に構造化された談話モデル内の位置に基づいて、情報率を変調する。
階層的予測器は談話の情報輪郭の重要な予測器であり,深い階層的予測器は浅い予測器よりも予測力が高いことがわかった。
論文 参考訳(メタデータ) (2024-10-21T14:42:37Z) - Quantifying the redundancy between prosody and text [67.07817268372743]
我々は大きな言語モデルを用いて、韻律と単語自体の間にどれだけの情報が冗長であるかを推定する。
単語が持つ情報と韻律情報の間には,複数の韻律的特徴にまたがる高い冗長性が存在する。
それでも、韻律的特徴はテキストから完全には予測できないことが観察され、韻律は単語の上下に情報を運ぶことが示唆された。
論文 参考訳(メタデータ) (2023-11-28T21:15:24Z) - Few-Shot Spoken Language Understanding via Joint Speech-Text Models [18.193191170754744]
テキストと協調的に事前学習した音声表現モデルに関する最近の研究は、音声表現の改善の可能性を示している。
このような共有表現を活用して、音声言語理解タスクにおける限られたデータ可用性の持続的課題に対処する。
事前訓練された音声テキストモデルを用いることで、テキスト上で微調整されたモデルを音声テストデータに効果的に転送できることが分かる。
論文 参考訳(メタデータ) (2023-10-09T17:59:21Z) - A Discourse-level Multi-scale Prosodic Model for Fine-grained Emotion
Analysis [19.271542595753267]
本稿では、談話レベルのテキストから詳細な感情分析を行うための適切な韻律的特徴の予測について検討する。
本稿では,これらの2つの韻律的特徴を予測するために,多スケールテキストを利用したD-MPM(D-MPM)を提案する。
論文 参考訳(メタデータ) (2023-09-21T07:45:44Z) - Improving Mandarin Prosodic Structure Prediction with Multi-level
Contextual Information [68.89000132126536]
本研究は,音声間言語情報を用いて韻律構造予測(PSP)の性能を向上させることを提案する。
提案手法は,韻律語(PW),韻律語(PPH),国際語句(IPH)の予測におけるF1スコアの向上を実現する。
論文 参考訳(メタデータ) (2023-08-31T09:19:15Z) - EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech
Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。
このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。
自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文 参考訳(メタデータ) (2023-08-10T17:41:19Z) - Improving Textless Spoken Language Understanding with Discrete Units as
Intermediate Target [58.59044226658916]
Spoken Language Understanding (SLU) は、音声音声から意味情報を抽出することを目的としたタスクである。
本研究では,テキストレスSLUの性能向上のための中間ガイダンスとして離散単位を用いることを提案する。
論文 参考訳(メタデータ) (2023-05-29T14:00:24Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - Extracting Structured Data from Physician-Patient Conversations By
Predicting Noteworthy Utterances [39.888619005843246]
本稿では,会話の書き起こし,ビジット後要約,対応する証拠(転写文),構造化ラベルからなる新しいデータセットについて述べる。
方法論的な課題の1つは、会話が長く(約1500語)、現代のディープラーニングモデルではそれらを入力として使うのが難しいことである。
予測音声を初めてフィルタリングすることにより,診断とRoS異常の両方を認識するための予測性能を著しく向上させることができることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:10:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。