論文の概要: I Hear, Therefore I Trust: A Socio-Technical Investigation of Humans as Synthetic Speech Detectors
- arxiv url: http://arxiv.org/abs/2605.28064v1
- Date: Wed, 27 May 2026 07:16:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.837444
- Title: I Hear, Therefore I Trust: A Socio-Technical Investigation of Humans as Synthetic Speech Detectors
- Title(参考訳): 聞く, 聞く, 信頼する: 合成音声検出器としての人間に関する社会技術的考察
- Authors: Lelia Erscoi, Tomi Kinnunen,
- Abstract要約: 人間が実際に合成音声に遭遇する社会技術環境は、いまだに理解されていない。
本報告では,47名の被験者が,正当性,完全合成,部分合成発話で疑わしい合成セグメントをマークした局所化課題について述べる。
- 参考スコア(独自算出の注目度): 8.41557303270307
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Automatic deepfake detection has received considerable research attention, yet the socio-technical environment in which humans actually encounter synthetic speech remains poorly understood. We investigate voice deepfake detection as a perceptual and contextual process, presenting a localization task in which 47 participants marked suspected synthetic segments across authentic, fully synthetic, and partially synthetic utterances under three manipulated trust cues: instructional framing, affective priming, and provenance labeling. Participants provided quality ratings on mechanicalness, expressiveness, intelligibility, clarity, calmness, and confidence of evaluation. Utterance class was the primary determinant of detection accuracy and perceptual quality; trust cues produced no main effects but motivated detection behavior. Fully synthetic speech was detected at below-chance levels. Quality ratings tracked utterance type, indicating implicit discrimination where overt detection failed.
- Abstract(参考訳): ディープフェイクの自動検出は研究の注目を集めているが、人間が合成音声に実際に遭遇する社会技術環境はいまだに理解されていない。
本研究は音声深度検出を知覚的・文脈的プロセスとして検討し,47名の被験者が信頼関係の3つの操作された発話(教育的フレーミング,情緒的プライミング,前駆的ラベル付け)の下で,正当性,完全合成,部分合成的発話を含む疑似合成セグメントをマークした局所化課題を提示する。
参加者は、機械性、表現性、知性、明瞭さ、落ち着き、評価の信頼性について品質評価を行った。
発話クラスは検出精度と知覚品質の主要な決定要因であった。
完全合成音声は低音域で検出された。
品質評価は発話タイプを追跡し、過剰検出が失敗した場合の暗黙の識別を示す。
関連論文リスト
- The False Resonance: A Critical Examination of Emotion Embedding Similarity for Speech Generation Evaluation [66.28943752785906]
感情的表現力の客観的指標は、特に表現的合成と音声変換において、音声生成に不可欠である。
言語や話者の変動にもかかわらず感情的な手がかりを捉えていると仮定して、感情2vecのようなエンコーダからの埋め込みのコサイン類似性を計算する。
分類精度が高いにもかかわらず、これらの潜伏空間はゼロショット類似性評価には適さない。
論文 参考訳(メタデータ) (2026-04-29T06:59:48Z) - Interpretable facial dynamics as behavioral and perceptual traces of deepfakes [0.0]
本研究は,顔面動態の生体行動特性を基盤とした解釈可能な代替法を提案する。
これらの特徴に基づいて訓練された従来の機械学習分類器は、わずかながら重要な特徴を極端に上回るディープフェイク分類に到達した。
モデル決定と人間の知覚的検出との関係を評価することによって、説明可能性に関する追加的かつ見落とされがちな次元を提供する。
論文 参考訳(メタデータ) (2026-04-23T15:07:30Z) - SNAP: Speaker Nulling for Artifact Projection in Speech Deepfake Detection [51.096014381455454]
自己教師付き学習ベースの音声エンコーダは、目に見えない話者を一般化するのに苦労する。
話者の絡み合いは、検出者が人工物に関連する手がかりではなく、話者固有の相関を悪用する原因となる。
我々は、この依存を軽減するために、SNAPという話者無効化フレームワークを紹介した。
論文 参考訳(メタデータ) (2026-03-21T07:05:30Z) - Can You Tell It's AI? Human Perception of Synthetic Voices in Vishing Scenarios [3.2976205772213123]
大規模言語モデルと商用音声合成システムにより、高度にリアルなAI生成音声スカム(ビッシング)が可能になった
しかし、現実的な詐欺の文脈でAIが生成した音声と人間の音声を確実に区別できるかどうかは不明だ。
その結果,22名の被験者がバイシングスタイルの音声クリップを16本評価し,それぞれ人間かAIに分類した。
論文 参考訳(メタデータ) (2026-02-23T17:17:53Z) - ADEPT: RL-Aligned Agentic Decoding of Emotion via Evidence Probing Tools -- From Consensus Learning to Ambiguity-Driven Emotion Reasoning [67.22219034602514]
ADEPT(Agentic Decoding of Emotion via Evidence Probing Tools)は,感情認識をマルチターン探索プロセスとして再構成するフレームワークである。
ADEPTはSLLMを進化する候補感情を維持するエージェントに変換し、専用のセマンティックおよび音響探査ツールを適応的に呼び出す。
ADEPTは、ほとんどの設定において主感情の精度を向上し、微妙な感情の特徴を著しく改善することを示した。
論文 参考訳(メタデータ) (2026-02-13T08:33:37Z) - Detecting Mental Manipulation in Speech via Synthetic Multi-Speaker Dialogue [12.181747090385612]
心的操作は、他者に影響を与えるか、搾取するために、言語を戦略的に利用することである。
音声対話における心的操作検出に関する最初の研究について述べる。
少数ショットの大きな音声言語モデルと人間のアノテーションを用いて、モーダリティが検出精度と知覚にどのように影響するかを評価する。
論文 参考訳(メタデータ) (2026-01-13T09:02:08Z) - EchoMind: An Interrelated Multi-level Benchmark for Evaluating Empathetic Speech Language Models [47.41816926003011]
音声言語モデル(SLM)は、音声言語理解において大きな進歩を遂げている。
SLMが非語彙的声道を完全に知覚できるかどうかは不明であるが、感情的・文脈的要因の双方に合致する共感に反応する。
共感的対話の認知過程をシミュレートする最初の相互関連型マルチレベルベンチマークであるEchoMindを提案する。
論文 参考訳(メタデータ) (2025-10-26T17:15:56Z) - AudioJudge: Understanding What Works in Large Audio Model Based Speech Evaluation [55.607230723223346]
本研究は,Large Audio Model (LAM) をAudioJudgeの裁判官として体系的に研究し,両課題に対処する統一評価フレームワークを提供することができるかどうかを検討する。
本稿では、発音、発話速度、話者識別、音声品質、自動ベンチマークのためのシステムレベルの人間の嗜好シミュレーションなど、音声特徴検出タスクにまたがるAudioJudgeについて検討する。
本稿では,多視点アンサンブルAudioJudgeを導入し,音声評価を語彙内容,音声品質,パラ言語特徴の専門判断者に分解し,人間の嗜好と最大0.91のスピアマン相関を達成させる手法を提案する。
論文 参考訳(メタデータ) (2025-07-17T00:39:18Z) - learning discriminative features from spectrograms using center loss for speech emotion recognition [62.13177498013144]
本稿では,感情認識のための可変長スペクトログラムから識別特徴を学習するための新しい手法を提案する。
ソフトマックスのクロスエントロピー損失は、異なる感情カテゴリの特徴を分離可能とし、センターロスは、同じ感情カテゴリに属する特徴をその中心に効率的に引き出す。
論文 参考訳(メタデータ) (2025-01-02T06:52:28Z) - Successes and critical failures of neural networks in capturing
human-like speech recognition [1.1602089225841632]
音声認識は、本質的に人間には様々な分光時間的粒度の多数の変換に対して堅牢である。
我々は、現状のニューラルネットワークを刺激計算可能で最適化されたオブザーバとして評価する。
論文 参考訳(メタデータ) (2022-04-06T06:35:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。