論文の概要: PersonaTAB: Predicting Personality Traits using Textual, Acoustic, and Behavioral Cues in Fully-Duplex Speech Dialogs
- arxiv url: http://arxiv.org/abs/2505.14356v1
- Date: Tue, 20 May 2025 13:41:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.266067
- Title: PersonaTAB: Predicting Personality Traits using Textual, Acoustic, and Behavioral Cues in Fully-Duplex Speech Dialogs
- Title(参考訳): ペルソナTAB:全二重音声対話におけるテキスト,音響,行動キューを用いた人格特性の予測
- Authors: Sho Inoue, Shai Wang, Haizhou Li,
- Abstract要約: 音声データセットにパーソナリティアノテーションがないために、パーソナリティを意識した会話エージェントが不足している。
本研究では、生音声録音を前処理して、タイムスタンプ、応答タイプ、感情・感覚ラベルを付加した対話データセットを作成するパイプラインを提案する。
自動音声認識(ASR)システムを用いて,テキストとタイムスタンプを抽出し,会話レベルのアノテーションを生成する。
- 参考スコア(独自算出の注目度): 36.18860434920165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite significant progress in neural spoken dialog systems, personality-aware conversation agents -- capable of adapting behavior based on personalities -- remain underexplored due to the absence of personality annotations in speech datasets. We propose a pipeline that preprocesses raw audio recordings to create a dialogue dataset annotated with timestamps, response types, and emotion/sentiment labels. We employ an automatic speech recognition (ASR) system to extract transcripts and timestamps, then generate conversation-level annotations. Leveraging these annotations, we design a system that employs large language models to predict conversational personality. Human evaluators were engaged to identify conversational characteristics and assign personality labels. Our analysis demonstrates that the proposed system achieves stronger alignment with human judgments compared to existing approaches.
- Abstract(参考訳): ニューラル音声対話システムの大幅な進歩にもかかわらず、個人性に基づく行動に適応できるパーソナリティ対応の会話エージェントは、音声データセットにパーソナリティアノテーションが欠如しているため、未調査のままである。
本研究では、生音声録音を前処理して、タイムスタンプ、応答タイプ、感情・感覚ラベルを付加した対話データセットを作成するパイプラインを提案する。
自動音声認識(ASR)システムを用いて,テキストとタイムスタンプを抽出し,会話レベルのアノテーションを生成する。
これらのアノテーションを活用することで、対話的パーソナリティを予測するために、大きな言語モデルを使用するシステムを設計する。
人間の評価者は、会話の特徴を特定し、人格ラベルを割り当てることに関わった。
提案手法は,従来の手法と比較して,人間の判断とより強く一致していることを示す。
関連論文リスト
- Enhancing Impression Change Prediction in Speed Dating Simulations Based on Speakers' Personalities [2.1740370446058708]
本稿では,話者間の印象が速度デート中に向上するテキスト対話のシミュレーションに焦点をあてる。
我々は、発話が対話相手の話者に対する印象を改善するかどうかは、双方の個性に依存する可能性があると考えている。
個人性を考慮して,発話が相手の話者印象を改善するかどうかを予測する手法を提案する。
論文 参考訳(メタデータ) (2025-02-07T07:18:32Z) - WavChat: A Survey of Spoken Dialogue Models [66.82775211793547]
GPT-4oのようなシステムで実証された音声対話モデルの最近の進歩は、音声領域において大きな注目を集めている。
これらの高度な音声対話モデルは、音声、音楽、その他の音声関連の特徴を理解するだけでなく、音声のスタイリスティックな特徴や音節的な特徴も捉える。
音声対話システムの進歩にもかかわらず、これらのシステムを体系的に組織化し分析する包括的調査が欠如している。
論文 参考訳(メタデータ) (2024-11-15T04:16:45Z) - Affective-NLI: Towards Accurate and Interpretable Personality Recognition in Conversation [30.820334868031537]
会話におけるパーソナリティ認識(PRC)は、テキスト対話コンテンツを通して話者の性格特性を識別することを目的としている。
本稿では,PRCの正確かつ解釈可能なAffective Natural Language Inference (Affective-NLI)を提案する。
論文 参考訳(メタデータ) (2024-04-03T09:14:24Z) - Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue [71.15186328127409]
パラリンGPT(Paralin GPT)
モデルは、シリアライズされたマルチタスクフレームワーク内の入力プロンプトとして、テキスト、音声埋め込み、およびパラ言語属性の会話コンテキストを取る。
音声対話データセットとして,感情ラベルをパラ言語属性として含むSwitchboard-1コーパスを利用する。
論文 参考訳(メタデータ) (2023-12-23T18:14:56Z) - Psychological Metrics for Dialog System Evaluation [16.16116910201279]
我々は,人間コミュニケーションと人間関係の基礎となる,確立された心理学から解釈可能な5つの指標を提示する。
心理学的メトリクスは、7つの最先端の伝統的なメトリクスと比較される。
論文 参考訳(メタデータ) (2023-05-24T06:02:32Z) - deep learning of segment-level feature representation for speech emotion
recognition in conversations [9.432208348863336]
そこで本稿では,意図的文脈依存と話者感応的相互作用をキャプチャする対話型音声感情認識手法を提案する。
まず、事前訓練されたVGGishモデルを用いて、個々の発話におけるセグメントベース音声表現を抽出する。
第2に、注意的双方向リカレントユニット(GRU)は、文脈に敏感な情報をモデル化し、話者内および話者間依存関係を共同で探索する。
論文 参考訳(メタデータ) (2023-02-05T16:15:46Z) - "How Robust r u?": Evaluating Task-Oriented Dialogue Systems on Spoken
Conversations [87.95711406978157]
本研究は、音声タスク指向会話における新しいベンチマークを示す。
マルチドメイン対話状態追跡と知識基底型対話モデルについて検討する。
我々のデータセットは,タスク指向対話システムの音声によるベンチマークを可能にする。
論文 参考訳(メタデータ) (2021-09-28T04:51:04Z) - Know Deeper: Knowledge-Conversation Cyclic Utilization Mechanism for
Open-domain Dialogue Generation [11.72386584395626]
エンドツーエンドのインテリジェントなニューラルダイアログシステムは、一貫性のない繰り返し応答を生成する問題に悩まされる。
既存の対話モデルは、対人関係の会話情報を対人情報の流れとして捉えた個人知識に組み込むことが、その後の会話の質を高めるという事実を無視しながら、対人関係の個人知識を一方的にダイアログに組み込むことに注意を払っている。
会話の一貫性を向上し、2つの折り畳みから繰り返しを緩和することを目的とした,会話適応型多視点対応対応型応答生成モデルを提案する。
論文 参考訳(メタデータ) (2021-07-16T08:59:06Z) - Dialogue History Matters! Personalized Response Selectionin Multi-turn
Retrieval-based Chatbots [62.295373408415365]
本稿では,コンテキスト応答マッチングのためのパーソナライズドハイブリッドマッチングネットワーク(phmn)を提案する。
1) ユーザ固有の対話履歴からパーソナライズされた発話行動を付加的なマッチング情報として抽出する。
ユーザ識別による2つの大規模データセット,すなわちパーソナライズされた対話 Corpus Ubuntu (P-Ubuntu) とパーソナライズされたWeiboデータセット (P-Weibo) のモデルを評価する。
論文 参考訳(メタデータ) (2021-03-17T09:42:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。