論文の概要: Detecting Mental Manipulation in Speech via Synthetic Multi-Speaker Dialogue
- arxiv url: http://arxiv.org/abs/2601.08342v1
- Date: Tue, 13 Jan 2026 09:02:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.125921
- Title: Detecting Mental Manipulation in Speech via Synthetic Multi-Speaker Dialogue
- Title(参考訳): 合成多話者対話による音声のメンタルマニピュレーションの検出
- Authors: Run Chen, Wen Liang, Ziwei Gong, Lin Ai, Julia Hirschberg,
- Abstract要約: 心的操作は、他者に影響を与えるか、搾取するために、言語を戦略的に利用することである。
音声対話における心的操作検出に関する最初の研究について述べる。
少数ショットの大きな音声言語モデルと人間のアノテーションを用いて、モーダリティが検出精度と知覚にどのように影響するかを評価する。
- 参考スコア(独自算出の注目度): 12.181747090385612
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Mental manipulation, the strategic use of language to covertly influence or exploit others, is a newly emerging task in computational social reasoning. Prior work has focused exclusively on textual conversations, overlooking how manipulative tactics manifest in speech. We present the first study of mental manipulation detection in spoken dialogues, introducing a synthetic multi-speaker benchmark SPEECHMENTALMANIP that augments a text-based dataset with high-quality, voice-consistent Text-to-Speech rendered audio. Using few-shot large audio-language models and human annotation, we evaluate how modality affects detection accuracy and perception. Our results reveal that models exhibit high specificity but markedly lower recall on speech compared to text, suggesting sensitivity to missing acoustic or prosodic cues in training. Human raters show similar uncertainty in the audio setting, underscoring the inherent ambiguity of manipulative speech. Together, these findings highlight the need for modality-aware evaluation and safety alignment in multimodal dialogue systems.
- Abstract(参考訳): 心的操作(心的操作)は、他者に影響を与えるか、搾取する言葉の戦略的利用であり、計算社会の推論において新たな課題である。
これまでの研究は、音声における操作的戦術がどのように現れるかを見越して、テキストによる会話にのみ焦点をあててきた。
本稿では,音声対話における心的操作検出に関する最初の研究として,高品質で音声に一貫性のある音声合成音声を用いたテキストベースデータセットを付加した,合成マルチスピーカベンチマークSPEECHMENTALMANIPを提案する。
少数ショットの大きな音声言語モデルと人間のアノテーションを用いて、モーダリティが検出精度と知覚にどのように影響するかを評価する。
以上の結果から,本モデルはテキストに比べて高い特異性を示すが,音声や韻律の欠如に敏感であることが示唆された。
人間のレイパーは、音声設定において同様の不確実性を示し、マニピュティブな発話の本質的なあいまいさを暗示している。
これらの知見は,マルチモーダル対話システムにおいて,モダリティを考慮した評価と安全性アライメントの必要性を浮き彫りにしている。
関連論文リスト
- EchoMind: An Interrelated Multi-level Benchmark for Evaluating Empathetic Speech Language Models [47.41816926003011]
音声言語モデル(SLM)は、音声言語理解において大きな進歩を遂げている。
SLMが非語彙的声道を完全に知覚できるかどうかは不明であるが、感情的・文脈的要因の双方に合致する共感に反応する。
共感的対話の認知過程をシミュレートする最初の相互関連型マルチレベルベンチマークであるEchoMindを提案する。
論文 参考訳(メタデータ) (2025-10-26T17:15:56Z) - VoiceAgentBench: Are Voice Assistants ready for agentic tasks? [5.639970295197759]
本稿では,現実的な音声エージェント設定におけるSpeechLMの評価ベンチマークであるVoiceAgentBenchを紹介する。
インドの文脈に根ざした5,500以上の合成音声クエリで構成されている。
ツール選択の正確性、構造的整合性、ツールの実行の正しさを測定する。
論文 参考訳(メタデータ) (2025-10-09T09:11:38Z) - MOSS-Speech: Towards True Speech-to-Speech Models Without Text Guidance [66.74042564585942]
MOSS-Speechは、テキストガイダンスに頼ることなく直接理解し、音声を生成する、真の音声音声合成大言語モデルである。
我々の研究は、表現的かつ効率的なエンドツーエンドの音声対話のための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-10-01T04:32:37Z) - MultiVox: A Benchmark for Evaluating Voice Assistants for Multimodal Interactions [70.93364531054273]
音声と視覚を融合させる音声アシスタントの能力を評価する最初のベンチマークであるMultiVoxを紹介する。
具体的には、MultiVoxには、多種多様なパラ言語的特徴を包含する1000の人間の注釈付き音声対話が含まれている。
10の最先端モデルに対する我々の評価は、人間はこれらのタスクに長けているが、現在のモデルは、常に文脈的に接地された応答を生成するのに苦労していることを示している。
論文 参考訳(メタデータ) (2025-07-14T23:20:42Z) - PersonaTAB: Predicting Personality Traits using Textual, Acoustic, and Behavioral Cues in Fully-Duplex Speech Dialogs [36.18860434920165]
音声データセットにパーソナリティアノテーションがないために、パーソナリティを意識した会話エージェントが不足している。
本研究では、生音声録音を前処理して、タイムスタンプ、応答タイプ、感情・感覚ラベルを付加した対話データセットを作成するパイプラインを提案する。
自動音声認識(ASR)システムを用いて,テキストとタイムスタンプを抽出し,会話レベルのアノテーションを生成する。
論文 参考訳(メタデータ) (2025-05-20T13:41:32Z) - Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue [71.15186328127409]
パラリンGPT(Paralin GPT)
モデルは、シリアライズされたマルチタスクフレームワーク内の入力プロンプトとして、テキスト、音声埋め込み、およびパラ言語属性の会話コンテキストを取る。
音声対話データセットとして,感情ラベルをパラ言語属性として含むSwitchboard-1コーパスを利用する。
論文 参考訳(メタデータ) (2023-12-23T18:14:56Z) - Multiscale Contextual Learning for Speech Emotion Recognition in
Emergency Call Center Conversations [4.297070083645049]
本稿では,音声感情認識のためのマルチスケール会話文脈学習手法を提案する。
音声の書き起こしと音響セグメントの両方について,本手法について検討した。
我々のテストによると、過去のトークンから派生したコンテキストは、以下のトークンよりも正確な予測に大きな影響を及ぼす。
論文 参考訳(メタデータ) (2023-08-28T20:31:45Z) - Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。
音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T05:11:39Z) - deep learning of segment-level feature representation for speech emotion
recognition in conversations [9.432208348863336]
そこで本稿では,意図的文脈依存と話者感応的相互作用をキャプチャする対話型音声感情認識手法を提案する。
まず、事前訓練されたVGGishモデルを用いて、個々の発話におけるセグメントベース音声表現を抽出する。
第2に、注意的双方向リカレントユニット(GRU)は、文脈に敏感な情報をモデル化し、話者内および話者間依存関係を共同で探索する。
論文 参考訳(メタデータ) (2023-02-05T16:15:46Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。