論文の概要: WhiSPA: Semantically and Psychologically Aligned Whisper with Self-Supervised Contrastive and Student-Teacher Learning
- arxiv url: http://arxiv.org/abs/2501.16344v1
- Date: Wed, 15 Jan 2025 06:30:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-02 08:21:50.354808
- Title: WhiSPA: Semantically and Psychologically Aligned Whisper with Self-Supervised Contrastive and Student-Teacher Learning
- Title(参考訳): WhiSPA: 自己監督型コントラスト学習と学生教師学習を併用した感傷的・心理的適応型ウィスパー
- Authors: Rajath Rao, Adithya Ganesan, Oscar Kjell, Jonah Luby, Akshay Raghavan, Scott Feltman, Whitney Ringwald, Ryan L. Boyd, Benjamin Luft, Camilo Ruggero, Neville Ryant, Roman Kotov, H. Andrew Schwartz,
- Abstract要約: この研究は、対照的な学生-教師の学習目標で訓練された新しいオーディオエンコーダであるWhiSPAを提案することによってギャップを埋める。
我々は,SBERTエンコーダのテキスト表現とWhisperオーディオ埋め込みの協調性および心理的次元のテキストベース評価の有用性を評価する。
- 参考スコア(独自算出の注目度): 6.287362888070063
- License:
- Abstract: Current speech encoding pipelines often rely on separate processing pipelines between text and audio, not fully leveraging the inherent overlap between these modalities for understanding human communication. Language models excel at capturing semantic meaning from text that can complement the additional prosodic, emotional, and acoustic cues from speech. This work bridges the gap by proposing WhiSPA (Whisper with Semantic-Psychological Alignment), a novel audio encoder trained with a contrastive student-teacher learning objective. Using over 500k speech segments from mental health audio interviews, we evaluate the utility of aligning Whisper audio embeddings with text representations from an SBERT encoder and text-based assessments of psychological dimensions: emotion and personality. Over self-supervised and downstream mental health tasks, WhiSPA surpasses state-of-the-art speech models, achieving an average error reduction of 73.4% on the segment-level self-supervised objective and 83.8% on 11 psychological downstream tasks. WhiSPA demonstrates that cross-modal alignment can increase the amount of text-semantic and psychological information captured in audio-only encoder models.
- Abstract(参考訳): 現在の音声符号化パイプラインは、しばしばテキストとオーディオの間で別々の処理パイプラインに依存しており、人間のコミュニケーションを理解するためにこれらのモダリティ間の本質的に重複を十分に活用していない。
言語モデルは、音声から追加の韻律的、感情的、音響的手がかりを補うことができるテキストから意味的意味を捉えるのに優れている。
この研究は、対照的な生徒と教師の学習目標で訓練された新しいオーディオエンコーダであるWhiSPA(Whisper with Semantic-Psychological Alignment)を提案することによってギャップを埋める。
SBERTエンコーダからのテキスト表現と、感情と個性という心理的次元のテキストベースアセスメントを併用したWhisperオーディオ埋め込みの有用性を、メンタルヘルスオーディオインタビューから500万以上の音声セグメントを用いて評価した。
自己監督と下流のメンタルヘルスタスクでは、WhiSPAは最先端の音声モデルを超え、セグメントレベルの自己監督目標で平均73.4%、心理的下流タスクで平均83.8%のエラー削減を達成した。
WhiSPAは、モーダルアライメントが音声のみのエンコーダモデルでキャプチャされたテキスト・セマンティックおよび心理的情報量を増加させることを示した。
関連論文リスト
- Leveraging Chain of Thought towards Empathetic Spoken Dialogue without Corresponding Question-Answering Data [33.85748258158527]
共感的対話は人間とコンピュータの自然な相互作用に不可欠である。
大規模言語モデル(LLM)は、その強力な能力を活用して対話生成に革命をもたらした。
本稿では,質問応答データの必要性を回避する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-19T04:10:53Z) - IntrinsicVoice: Empowering LLMs with Intrinsic Real-time Voice Interaction Abilities [55.11130688075417]
IntrinsicVoicは、本質的なリアルタイム音声対話機能を備えたLLMである。
我々の新規アーキテクチャであるGroupFormerは、テキストシーケンスに匹敵する長さまで音声シーケンスを削減できる。
我々は,500k近い音声対音声対話を含む,メソッド500kというマルチターン音声対音声対話データセットを構築した。
論文 参考訳(メタデータ) (2024-10-09T05:04:31Z) - Self-Powered LLM Modality Expansion for Large Speech-Text Models [62.27700381806554]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスを示す。
本研究は,バニラ調律の限界に対処して,LSM訓練における音声データセットの利用を改良することを目的とする。
そこで本研究では,モデル自体が生成する拡張音声認識データを利用して,より効果的な命令チューニングを行う自己力 LSM を提案する。
論文 参考訳(メタデータ) (2024-10-04T04:34:24Z) - Human Speech Perception in Noise: Can Large Language Models Paraphrase to Improve It? [26.835947209927273]
LLM(Large Language Models)は、形式性などのスタイル属性を変換することで、形式的あるいは非公式なテキストを生成することができる。
本研究は,騒音における人間の発話知覚を改善するために,音響的に理解可能なパラフレーズを生成する新しいタスクにおいて,LLMを評価するための最初の研究である。
提案手法は,バブルノイズを伴う聴取条件において,信号-雑音比(SNR)-5dBで高い歪みを呈する発話を言い換えることにより,人間の音声知覚の40%の相対的な改善をもたらした。
論文 参考訳(メタデータ) (2024-08-07T18:24:23Z) - Beyond Silent Letters: Amplifying LLMs in Emotion Recognition with Vocal Nuances [3.396456345114466]
本稿では,音声特徴を自然言語記述に変換するSpeechCueLLMを提案する。
我々は、IEMOCAPとMELDの2つのデータセット上でSpeechCueLLMを評価し、感情認識精度を大幅に改善した。
論文 参考訳(メタデータ) (2024-07-31T03:53:14Z) - Towards Accurate Lip-to-Speech Synthesis in-the-Wild [31.289366690147556]
そこで本研究では,唇の動きのみをベースとしたサイレントビデオから音声を合成する手法を提案する。
リップビデオから直接音声を生成する従来のアプローチは、音声だけで堅牢な言語モデルを学べないという課題に直面している。
我々は,我々のモデルに言語情報を注入する最先端のリップ・トゥ・テキスト・ネットワークを用いて,ノイズの多いテキスト管理を導入することを提案する。
論文 参考訳(メタデータ) (2024-03-02T04:07:24Z) - Beyond Text: Utilizing Vocal Cues to Improve Decision Making in LLMs for Robot Navigation Tasks [21.00934456079959]
Beyond Text: これらの特徴のサブセクションとともに音声の書き起こしを統合することで意思決定を改善するアプローチを提案する。
このアプローチは70.26%の勝利率を達成し、既存のLLMの22.16%から48.30%を上回った。
また,トークン操作に対する攻撃に対する堅牢性も向上し,勝利率においてテキストのみの言語モデルよりも22.44%の減少率で強調された。
論文 参考訳(メタデータ) (2024-02-05T20:11:56Z) - ZET-Speech: Zero-shot adaptive Emotion-controllable Text-to-Speech
Synthesis with Diffusion and Style-based Models [83.07390037152963]
ZET-Speech はゼロショット適応型 TTS モデルである。
ユーザは、短い中性音声セグメントとターゲットの感情ラベルのみを使用して、任意の話者の感情音声を合成することができる。
実験の結果,ZET-Speechは自然音声と感情音声の合成に成功していることがわかった。
論文 参考訳(メタデータ) (2023-05-23T08:52:00Z) - MixSpeech: Cross-Modality Self-Learning with Audio-Visual Stream Mixup
for Visual Speech Translation and Recognition [51.412413996510814]
視覚音声の訓練を正規化するために音声音声を利用する多目的自己学習フレームワークであるMixSpeechを提案する。
MixSpeechは雑音の多い環境での音声翻訳を強化し、AVMuST-TED上でのBLEUスコアを+1.4から+4.2に改善した。
論文 参考訳(メタデータ) (2023-03-09T14:58:29Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Limited Data Emotional Voice Conversion Leveraging Text-to-Speech:
Two-stage Sequence-to-Sequence Training [91.95855310211176]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変えることを目的としている。
本研究では,感情音声データ量の少ない連続音声変換のための新しい2段階学習戦略を提案する。
提案フレームワークはスペクトル変換と韻律変換の両方が可能であり、客観的評価と主観評価の両方において最先端のベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2021-03-31T04:56:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。