論文の概要: Can We Estimate Purchase Intention Based on Zero-shot Speech Emotion Recognition?
- arxiv url: http://arxiv.org/abs/2410.09636v1
- Date: Sat, 12 Oct 2024 20:25:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 09:06:07.723278
- Title: Can We Estimate Purchase Intention Based on Zero-shot Speech Emotion Recognition?
- Title(参考訳): ゼロショット音声認識による購入意図の推定
- Authors: Ryotaro Nagase, Takashi Sumiyoshi, Natsuo Yamashita, Kota Dohi, Yohei Kawaguchi,
- Abstract要約: 本稿では、従来SERモデルトレーニングで定義されていなかった感情を推定するゼロショット音声感情認識(SER)手法を提案する。
本稿では,バイポーラ感情としての購入意図に着目し,モデルの性能をゼロショットで推定する。
- 参考スコア(独自算出の注目度): 4.129051275390198
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a zero-shot speech emotion recognition (SER) method that estimates emotions not previously defined in the SER model training. Conventional methods are limited to recognizing emotions defined by a single word. Moreover, we have the motivation to recognize unknown bipolar emotions such as ``I want to buy - I do not want to buy.'' In order to allow the model to define classes using sentences freely and to estimate unknown bipolar emotions, our proposed method expands upon the contrastive language-audio pre-training (CLAP) framework by introducing multi-class and multi-task settings. We also focus on purchase intention as a bipolar emotion and investigate the model's performance to zero-shot estimate it. This study is the first attempt to estimate purchase intention from speech directly. Experiments confirm that the results of zero-shot estimation by the proposed method are at the same level as those of the model trained by supervised learning.
- Abstract(参考訳): 本稿では、従来SERモデルトレーニングで定義されていなかった感情を推定するゼロショット音声感情認識(SER)手法を提案する。
従来の方法は、一つの単語で定義された感情を認識することに限定されている。
さらに、私たちは‘購入したい’といった未知のバイポーラ感情を認識する動機があります。
提案手法は,文を用いてクラスを自由に定義し,未知のバイポーラ感情を推定するために,マルチクラスおよびマルチタスク設定を導入することで,コントラッシブ言語・オーディオ事前学習(CLAP)フレームワーク上に拡張する。
また、バイポーラ感情としての購入意図に着目し、モデルの性能をゼロショットで見積もる。
本研究は,音声から直接購入意図を推定する最初の試みである。
実験により,提案手法によるゼロショット推定の結果が,教師付き学習によって訓練されたモデルと同一レベルであることが確認された。
関連論文リスト
- LAST: Language Model Aware Speech Tokenization [24.185165710384997]
本稿では,事前学習されたテキストLMの目的を活かして,音声トークン化者の訓練を行う新しい手法を提案する。
本研究の目的は,事前学習した音声モデルから,より優れたクラスタリングを実現するための新機能空間への変換である。
論文 参考訳(メタデータ) (2024-09-05T16:57:39Z) - Audio-Visual Compound Expression Recognition Method based on Late Modality Fusion and Rule-based Decision [9.436107335675473]
本稿では,第6回ABAWコンペティションの複合表現認識チャレンジにおけるSUNチームの結果について述べる。
本稿では,複合表現認識のための新しい音声視覚手法を提案する。
論文 参考訳(メタデータ) (2024-03-19T12:45:52Z) - Learning Multilingual Expressive Speech Representation for Prosody
Prediction without Parallel Data [0.0]
本稿では,個別音声単位のレベルで音声から音声への感情翻訳を行う手法を提案する。
この埋め込みは、対象言語における音声単位のピッチと持続時間を予測するのに有効であることを示す。
我々は、英語とフランス語の音声信号に対する我々のアプローチを評価し、ベースライン法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-29T08:06:54Z) - Describing emotions with acoustic property prompts for speech emotion
recognition [30.990720176317463]
本研究では、ピッチ、ラウドネス、発声率、調音率などの音響特性を演算することで、所定の音声に対する記述を自動生成する手法を提案する。
これらの音声テキストペアを用いてニューラルネットワークモデルをトレーニングし、さらに1つのデータセットを用いてモデルを評価する。
モデルが音声と記述を関連づけることについて検討し,その結果,音声の感情認識と音声検索の性能が向上した。
論文 参考訳(メタデータ) (2022-11-14T20:29:37Z) - Speech Synthesis with Mixed Emotions [77.05097999561298]
異なる感情の音声サンプル間の相対的な差を測定する新しい定式化を提案する。
次に、私たちの定式化を、シーケンスからシーケンスまでの感情的なテキストから音声へのフレームワークに組み込む。
実行時に、感情属性ベクトルを手動で定義し、所望の感情混合を生成するためにモデルを制御する。
論文 参考訳(メタデータ) (2022-08-11T15:45:58Z) - Seeking Subjectivity in Visual Emotion Distribution Learning [93.96205258496697]
視覚感情分析(VEA)は、人々の感情を異なる視覚刺激に向けて予測することを目的としている。
既存の手法では、集団投票プロセスにおいて固有の主観性を無視して、統合されたネットワークにおける視覚的感情分布を予測することが多い。
視覚的感情分布の主観性を調べるために,新しいテキストサブジェクティビティ評価ネットワーク(SAMNet)を提案する。
論文 参考訳(メタデータ) (2022-07-25T02:20:03Z) - Zero-Shot Voice Conditioning for Denoising Diffusion TTS Models [95.97506031821217]
本研究では,事前学習した拡散音声モデルを用いて,学習中に見つからない新人の声で音声を生成する手法を提案する。
この方法は、対象者からの短い(3秒)サンプルを必要とし、生成は、トレーニングステップなしで、推論時に操縦される。
論文 参考訳(メタデータ) (2022-06-05T19:45:29Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - A Circular-Structured Representation for Visual Emotion Distribution
Learning [82.89776298753661]
視覚的感情分布学習に先立つ知識を活用するために,身近な円形構造表現を提案する。
具体的には、まず感情圏を構築し、その内にある感情状態を統一する。
提案した感情圏では、各感情分布は3つの属性で定義される感情ベクトルで表される。
論文 参考訳(メタデータ) (2021-06-23T14:53:27Z) - SpanEmo: Casting Multi-label Emotion Classification as Span-prediction [15.41237087996244]
マルチラベル感情分類をスパンプレディションとした新しいモデル「SpanEmo」を提案する。
入力文中の複数の共存感情をモデル化することに焦点を当てた損失関数を導入する。
SemEval2018マルチラベル感情データを3つの言語セットで実験した結果,本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-01-25T12:11:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。