論文の概要: Contextual Paralinguistic Data Creation for Multi-Modal Speech-LLM: Data Condensation and Spoken QA Generation
- arxiv url: http://arxiv.org/abs/2505.13338v1
- Date: Mon, 19 May 2025 16:47:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.746057
- Title: Contextual Paralinguistic Data Creation for Multi-Modal Speech-LLM: Data Condensation and Spoken QA Generation
- Title(参考訳): マルチモーダル音声LLMのための文脈パラ言語的データ生成:データ凝縮と音声QA生成
- Authors: Qiongqiong Wang, Hardik B. Sailor, Tianchi Liu, Ai Ti Aw,
- Abstract要約: 現在の音声-LLMは、パラ言語的理解とともに文脈推論における限られた能力を示す。
そこで本研究では,文脈推論とパラ言語情報を統合した,Wild 音声データからデータセットを生成する新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 15.242292693077417
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Current speech-LLMs exhibit limited capability in contextual reasoning alongside paralinguistic understanding, primarily due to the lack of Question-Answer (QA) datasets that cover both aspects. We propose a novel framework for dataset generation from in-the-wild speech data, that integrates contextual reasoning with paralinguistic information. It consists of a pseudo paralinguistic label-based data condensation of in-the-wild speech and LLM-based Contextual Paralinguistic QA (CPQA) generation. The effectiveness is validated by a strong correlation in evaluations of the Qwen2-Audio-7B-Instruct model on a dataset created by our framework and human-generated CPQA dataset. The results also reveal the speech-LLM's limitations in handling empathetic reasoning tasks, highlighting the need for such datasets and more robust models. The proposed framework is first of its kind and has potential in training more robust speech-LLMs with paralinguistic reasoning capabilities.
- Abstract(参考訳): 現在の音声-LLMは、両方の側面をカバーする質問応答(QA)データセットが欠如していることから、パラ言語的理解とともに文脈推論の限られた能力を示す。
そこで本研究では,文脈推論とパラ言語情報を統合した,Wild 音声データからデータセットを生成する新しいフレームワークを提案する。
それは、擬似パラ言語的ラベルベースデータ縮合とLLMに基づく文脈パラ言語的QA(CPQA)生成からなる。
本手法の有効性は,本フレームワークと人為的CPQAデータセットによるデータセット上でのQwen2-Audio-7B-Instructモデルの評価において強い相関関係によって検証された。
結果はまた、共感的推論タスクを扱う際の言語-LLMの制限を明らかにし、そのようなデータセットやより堅牢なモデルの必要性を強調している。
提案フレームワークは第一種であり、パラ言語的推論機能を備えたより堅牢な音声-LLMを訓練する可能性を秘めている。
関連論文リスト
- Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue [71.15186328127409]
パラリンGPT(Paralin GPT)
モデルは、シリアライズされたマルチタスクフレームワーク内の入力プロンプトとして、テキスト、音声埋め込み、およびパラ言語属性の会話コンテキストを取る。
音声対話データセットとして,感情ラベルをパラ言語属性として含むSwitchboard-1コーパスを利用する。
論文 参考訳(メタデータ) (2023-12-23T18:14:56Z) - Learning Disentangled Speech Representations [0.412484724941528]
SynSpeechは、非絡み合った音声表現の研究を可能にするために設計された、新しい大規模合成音声データセットである。
本稿では, 線形探索と教師付きアンタングル化指標を併用して, アンタングル化表現学習手法を評価する枠組みを提案する。
SynSpeechは、さまざまな要因のベンチマークを促進し、ジェンダーや話し方のようなより単純な機能の切り離しを期待できると同時に、話者アイデンティティのような複雑な属性を分離する際の課題を強調します。
論文 参考訳(メタデータ) (2023-11-04T04:54:17Z) - Enhancing Argument Structure Extraction with Efficient Leverage of
Contextual Information [79.06082391992545]
本稿では,コンテキスト情報を完全に活用する効率的なコンテキスト認識モデル(ECASE)を提案する。
文脈情報や議論情報を集約するために,シーケンスアテンションモジュールと距離重み付き類似度損失を導入する。
各種ドメインの5つのデータセットに対する実験により,我々のモデルが最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2023-10-08T08:47:10Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。