論文の概要: Investigation for Relative Voice Impression Estimation
- arxiv url: http://arxiv.org/abs/2602.14172v2
- Date: Wed, 18 Feb 2026 01:49:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 13:51:30.965844
- Title: Investigation for Relative Voice Impression Estimation
- Title(参考訳): 相対音声印象推定法の検討
- Authors: Kenichi Fujita, Yusuke Ijima,
- Abstract要約: 本研究では,相対音声印象推定(RIE)について検討する。
RIEは、同一話者から2つの発話の知覚的差異を予測するためのフレームワークである。
音声の感情認識によく用いられる古典的音響特徴,自己教師型音声表現,マルチモーダル大言語モデル,の3つの手法を比較した。
- 参考スコア(独自算出の注目度): 16.024524623990484
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Paralinguistic and non-linguistic aspects of speech strongly influence listener impressions. While most research focuses on absolute impression scoring, this study investigates relative voice impression estimation (RIE), a framework for predicting the perceptual difference between two utterances from the same speaker. The estimation target is a low-dimensional vector derived from subjective evaluations, quantifying the perceptual shift of the second utterance relative to the first along an antonymic axis (e.g., ``Dark--Bright''). To isolate expressive and prosodic variation, we used recordings of a professional speaker reading a text in various styles. We compare three modeling approaches: classical acoustic features commonly used for speech emotion recognition, self-supervised speech representations, and multimodal large language models (MLLMs). Our results demonstrate that models using self-supervised representations outperform methods with classical acoustic features, particularly in capturing complex and dynamic impressions (e.g., ``Cold--Warm'') where classical features fail. In contrast, current MLLMs prove unreliable for this fine-grained pairwise task. This study provides the first systematic investigation of RIE and demonstrates the strength of self-supervised speech models in capturing subtle perceptual variations.
- Abstract(参考訳): 音声のパラ言語的・非言語的側面は聴取者の印象に強く影響を及ぼす。
多くの研究は絶対的な印象評価に焦点を当てているが、同一話者からの2つの発話の知覚差を予測するための相対的な音声印象推定(RIE)について検討する。
推定対象は主観評価から導出される低次元ベクトルであり、無調軸に沿った第1の音声に対する第2の発話の知覚シフト(eg, ``Dark--Bright'')を定量化する。
表現的および韻律的変動を分離するために,様々なスタイルでテキストを読むプロの話者の記録を用いた。
音声の感情認識、自己教師型音声表現、マルチモーダル大言語モデル(MLLM)の3つの手法を比較した。
以上の結果から,従来の音響特徴を用いた自己教師付き表現を用いたモデルは,特に古典的特徴が失敗する複雑な印象や動的印象(例えば ``Cold--Warm'')を捉える場合において,従来の音響特徴よりも優れることが示された。
対照的に、現在のMLLMは、この微細なペアワイズタスクには信頼できない。
本研究は、RIEを初めて体系的に研究し、微妙な知覚変化を捉えた自己教師型音声モデルの強さを実証する。
関連論文リスト
- SpeechR: A Benchmark for Speech Reasoning in Large Audio-Language Models [60.72029578488467]
SpeechRは、大規模な音声言語モデルにおける音声に対する推論を評価するための統一的なベンチマークである。
事実検索、手続き推論、規範的判断の3つの重要な側面に沿ったモデルを評価する。
11個の最先端のLALMの評価は、高い転写精度が強い推論能力に変換されないことを示している。
論文 参考訳(メタデータ) (2025-08-04T03:28:04Z) - Affect Models Have Weak Generalizability to Atypical Speech [6.392336908224424]
非定型音声のデータセットにおける音声からのカテゴリー的・次元的影響を認識するためのモデルを評価する。
その結果,影響モデルの出力は音声の非定型性の存在や程度に大きく影響していることがわかった。
論文 参考訳(メタデータ) (2025-04-22T21:40:17Z) - Speechworthy Instruction-tuned Language Models [71.8586707840169]
提案手法は,学習の促進と嗜好の両面において,一般的な命令調整型LLMの音声適合性の向上を図っている。
我々は,各手法が生成した応答の音声適合性向上にどのように貢献するかを示すために,語彙的,構文的,定性的な分析を共有する。
論文 参考訳(メタデータ) (2024-09-23T02:34:42Z) - Pre-trained Model Representations and their Robustness against Noise for
Speech Emotion Analysis [6.382013662443799]
我々は、事前訓練されたモデルからのマルチモーダル融合表現を用いて、最先端の音声感情推定を生成する。
その結果,語彙表現は音響表現に比べて歪みに対して頑健であることが判明した。
論文 参考訳(メタデータ) (2023-03-03T18:22:32Z) - Pre-Finetuning for Few-Shot Emotional Speech Recognition [20.894029832911617]
我々は話者適応を数発の学習問題と見なしている。
そこで本研究では,知識を数発の下流分類対象に抽出する難解な課題に対する事前学習音声モデルを提案する。
論文 参考訳(メタデータ) (2023-02-24T22:38:54Z) - Speech Emotion: Investigating Model Representations, Multi-Task Learning
and Knowledge Distillation [6.382013662443799]
音声信号から次元感情を推定することは困難である。
事前学習した音響モデルにより、音声の価値推定を改善することができることを示す。
我々は,現在最先端の「テキストフリー」音響のみの次元感情推定について報告する。
論文 参考訳(メタデータ) (2022-07-02T17:34:44Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Unsupervised Personalization of an Emotion Recognition System: The
Unique Properties of the Externalization of Valence in Speech [37.6839508524855]
音声感情認識システムを特定の話者に適用することは、特にディープニューラルネットワーク(DNN)において難しい問題である。
本研究は,テストセットの話者と同じような音響パターンを持つ列車の話者を探索することにより,この問題に対処するための教師なしアプローチを提案する。
本稿では,一意な話者,オーバサンプリング,重み付けという3つの方法を提案する。
論文 参考訳(メタデータ) (2022-01-19T22:14:49Z) - Filling the Gap of Utterance-aware and Speaker-aware Representation for
Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。
既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。
本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-09-14T15:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。