Fugu-MT 論文翻訳(概要): WhiSPA: Semantically and Psychologically Aligned Whisper with Self-Supervised Contrastive and Student-Teacher Learning

論文の概要: WhiSPA: Semantically and Psychologically Aligned Whisper with Self-Supervised Contrastive and Student-Teacher Learning

arxiv url: http://arxiv.org/abs/2501.16344v2
Date: Sun, 16 Feb 2025 23:25:21 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-18 18:26:19.666311
Title: WhiSPA: Semantically and Psychologically Aligned Whisper with Self-Supervised Contrastive and Student-Teacher Learning
Title（参考訳）: WhiSPA: 自己監督型コントラスト学習と学生教師学習を併用した感傷的・心理的適応型ウィスパー
Authors: Rajath Rao, Adithya Ganesan, Oscar Kjell, Jonah Luby, Akshay Raghavan, Scott Feltman, Whitney Ringwald, Ryan L. Boyd, Benjamin Luft, Camilo Ruggero, Neville Ryant, Roman Kotov, H. Andrew Schwartz,
Abstract要約: 本研究は,後続のテキスト-LMが不要となるような音声モデルにおけるLMの改善手法を提案する。本稿では,教師としての言語モデル埋め込みによる対照的な損失という,新たな学習目標を生かしたWhiSPAを紹介する。
参考スコア（独自算出の注目度）: 6.287362888070063
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Current speech encoding pipelines often rely on an additional text-based LM to get robust representations of human communication, even though SotA speech-to-text models often have a LM within. This work proposes an approach to improve the LM within an audio model such that the subsequent text-LM is unnecessary. We introduce WhiSPA (Whisper with Semantic and Psychological Alignment), which leverages a novel audio training objective: contrastive loss with a language model embedding as a teacher. Using over 500k speech segments from mental health audio interviews, we evaluate the utility of aligning Whisper's latent space with semantic representations from a text autoencoder (SBERT) and lexically derived embeddings of basic psychological dimensions: emotion and personality. Over self-supervised affective tasks and downstream psychological tasks, WhiSPA surpasses current speech encoders, achieving an average error reduction of 73.4% and 83.8%, respectively. WhiSPA demonstrates that it is not always necessary to run a subsequent text LM on speech-to-text output in order to get a rich psychological representation of human communication.
Abstract（参考訳）: 現在の音声符号化パイプラインは、人間のコミュニケーションの堅牢な表現を得るために、追加のテキストベースのLMに依存していることが多い。本研究は,後続のテキスト-LMが不要となるような音声モデルにおけるLMの改善手法を提案する。 Whisper with Semantic and Psychological Alignment (Whisper with Semantic and Psychological Alignment) では,教師としての言語モデル埋め込みによる対照的な損失という,新たな学習目標を活用する。メンタルヘルス音声インタビューの500k以上の音声セグメントを用いて、Whisperの潜伏空間とテキストオートエンコーダ(SBERT)のセマンティック表現と、感情とパーソナリティという基本的な心理的次元の語彙的に派生した埋め込みとの整合性を評価する。自己監督された感情的タスクと下流の心理的タスクにおいて、WhiSPAは現在の音声エンコーダを上回り、平均誤差の73.4%と83.8%を達成している。 WhiSPAは、人間のコミュニケーションの豊かな心理的表現を得るために、音声からテキストへの出力に対して、後続のテキストLMを実行する必要が必ずしもないことを示した。

関連論文リスト

ProsodyLM: Uncovering the Emerging Prosody Processing Capabilities in Speech Language Models [70.56468982313834]
本稿では,韻律学習に適した単純なトークン化方式であるProsodyLMを提案する。 ProsodyLMは事前学習だけで驚くほど多様なプロソディ処理能力を学習できることがわかった。
論文参考訳（メタデータ） (2025-07-27T00:59:01Z)
Leveraging Chain of Thought towards Empathetic Spoken Dialogue without Corresponding Question-Answering Data [33.85748258158527]
共感的対話は人間とコンピュータの自然な相互作用に不可欠である。大規模言語モデル(LLM)は、その強力な能力を活用して対話生成に革命をもたらした。本稿では,質問応答データの必要性を回避する新しい手法を提案する。
論文参考訳（メタデータ） (2025-01-19T04:10:53Z)
IntrinsicVoice: Empowering LLMs with Intrinsic Real-time Voice Interaction Abilities [55.11130688075417]
IntrinsicVoicは、本質的なリアルタイム音声対話機能を備えたLLMである。我々の新規アーキテクチャであるGroupFormerは、テキストシーケンスに匹敵する長さまで音声シーケンスを削減できる。我々は,500k近い音声対音声対話を含む,メソッド500kというマルチターン音声対音声対話データセットを構築した。
論文参考訳（メタデータ） (2024-10-09T05:04:31Z)
Self-Powered LLM Modality Expansion for Large Speech-Text Models [62.27700381806554]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスを示す。本研究は,バニラ調律の限界に対処して,LSM訓練における音声データセットの利用を改良することを目的とする。そこで本研究では,モデル自体が生成する拡張音声認識データを利用して,より効果的な命令チューニングを行う自己力 LSM を提案する。
論文参考訳（メタデータ） (2024-10-04T04:34:24Z)
Human Speech Perception in Noise: Can Large Language Models Paraphrase to Improve It? [26.835947209927273]
LLM(Large Language Models)は、形式性などのスタイル属性を変換することで、形式的あるいは非公式なテキストを生成することができる。本研究は,騒音における人間の発話知覚を改善するために,音響的に理解可能なパラフレーズを生成する新しいタスクにおいて,LLMを評価するための最初の研究である。提案手法は,バブルノイズを伴う聴取条件において,信号-雑音比(SNR)-5dBで高い歪みを呈する発話を言い換えることにより,人間の音声知覚の40%の相対的な改善をもたらした。
論文参考訳（メタデータ） (2024-08-07T18:24:23Z)
Beyond Silent Letters: Amplifying LLMs in Emotion Recognition with Vocal Nuances [3.396456345114466]
本稿では,音声特徴を自然言語記述に変換するSpeechCueLLMを提案する。我々は、IEMOCAPとMELDの2つのデータセット上でSpeechCueLLMを評価し、感情認識精度を大幅に改善した。
論文参考訳（メタデータ） (2024-07-31T03:53:14Z)
Towards Accurate Lip-to-Speech Synthesis in-the-Wild [31.289366690147556]
そこで本研究では,唇の動きのみをベースとしたサイレントビデオから音声を合成する手法を提案する。リップビデオから直接音声を生成する従来のアプローチは、音声だけで堅牢な言語モデルを学べないという課題に直面している。我々は,我々のモデルに言語情報を注入する最先端のリップ・トゥ・テキスト・ネットワークを用いて,ノイズの多いテキスト管理を導入することを提案する。
論文参考訳（メタデータ） (2024-03-02T04:07:24Z)
Beyond Text: Utilizing Vocal Cues to Improve Decision Making in LLMs for Robot Navigation Tasks [21.00934456079959]
Beyond Text: これらの特徴のサブセクションとともに音声の書き起こしを統合することで意思決定を改善するアプローチを提案する。このアプローチは70.26%の勝利率を達成し、既存のLLMの22.16%から48.30%を上回った。また,トークン操作に対する攻撃に対する堅牢性も向上し,勝利率においてテキストのみの言語モデルよりも22.44%の減少率で強調された。
論文参考訳（メタデータ） (2024-02-05T20:11:56Z)
Effect of Attention and Self-Supervised Speech Embeddings on Non-Semantic Speech Tasks [3.570593982494095]
我々は、より現実的な認識課題として、音声感情理解を考察する。我々は,ComParEの多言語話者の豊富なデータセットと,その感情の「感情共有」や知覚の多言語回帰ターゲットを利用する。以上の結果から,HuBERT-Largeの自己アテンションに基づく軽量シーケンスモデルでは,報告されたベースラインよりも4.6%向上していることがわかった。
論文参考訳（メタデータ） (2023-08-28T07:11:27Z)
Audio is all in one: speech-driven gesture synthetics using WavLM pre-trained model [2.827070255699381]
diffmotion-v2は、WavLM事前学習モデルを用いた音声条件拡散に基づく生成モデルである。生音声のみを使用して、個人的でスタイリングされたフルボディの音声合成ジェスチャを生成することができる。
論文参考訳（メタデータ） (2023-08-11T08:03:28Z)
ZET-Speech: Zero-shot adaptive Emotion-controllable Text-to-Speech Synthesis with Diffusion and Style-based Models [83.07390037152963]
ZET-Speech はゼロショット適応型 TTS モデルである。ユーザは、短い中性音声セグメントとターゲットの感情ラベルのみを使用して、任意の話者の感情音声を合成することができる。実験の結果,ZET-Speechは自然音声と感情音声の合成に成功していることがわかった。
論文参考訳（メタデータ） (2023-05-23T08:52:00Z)
MixSpeech: Cross-Modality Self-Learning with Audio-Visual Stream Mixup for Visual Speech Translation and Recognition [51.412413996510814]
視覚音声の訓練を正規化するために音声音声を利用する多目的自己学習フレームワークであるMixSpeechを提案する。 MixSpeechは雑音の多い環境での音声翻訳を強化し、AVMuST-TED上でのBLEUスコアを+1.4から+4.2に改善した。
論文参考訳（メタデータ） (2023-03-09T14:58:29Z)
SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文参考訳（メタデータ） (2022-09-30T09:12:10Z)
Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文参考訳（メタデータ） (2022-03-31T17:57:10Z)
Towards Language Modelling in the Speech Domain Using Sub-word Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文参考訳（メタデータ） (2021-10-31T22:48:30Z)
Limited Data Emotional Voice Conversion Leveraging Text-to-Speech: Two-stage Sequence-to-Sequence Training [91.95855310211176]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変えることを目的としている。本研究では,感情音声データ量の少ない連続音声変換のための新しい2段階学習戦略を提案する。提案フレームワークはスペクトル変換と韻律変換の両方が可能であり、客観的評価と主観評価の両方において最先端のベースラインを大幅に改善する。
論文参考訳（メタデータ） (2021-03-31T04:56:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。