Fugu-MT 論文翻訳(概要): Can You Tell It's AI? Human Perception of Synthetic Voices in Vishing Scenarios

論文の概要: Can You Tell It's AI? Human Perception of Synthetic Voices in Vishing Scenarios

arxiv url: http://arxiv.org/abs/2602.20061v1
Date: Mon, 23 Feb 2026 17:17:53 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.920589
Title: Can You Tell It's AI? Human Perception of Synthetic Voices in Vishing Scenarios
Title（参考訳）: AIでわかる? ヴァイシングシナリオにおける人間による合成音声の知覚
Authors: Zoha Hayat Bhatti, Bakhtawar Ahtisham, Seemal Tausif, Niklas George, Nida ul Habib Bajwa, Mobin Javed,
Abstract要約: 大規模言語モデルと商用音声合成システムにより、高度にリアルなAI生成音声スカム(ビッシング)が可能になったしかし、現実的な詐欺の文脈でAIが生成した音声と人間の音声を確実に区別できるかどうかは不明だ。その結果,22名の被験者がバイシングスタイルの音声クリップを16本評価し,それぞれ人間かAIに分類した。
参考スコア（独自算出の注目度）: 3.2976205772213123
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models and commercial speech synthesis systems now enable highly realistic AI-generated voice scams (vishing), raising urgent concerns about deception at scale. Yet it remains unclear whether individuals can reliably distinguish AI-generated speech from human-recorded voices in realistic scam contexts and what perceptual strategies underlie their judgments. We conducted a controlled online study in which 22 participants evaluated 16 vishing-style audio clips (8 AI-generated, 8 human-recorded) and classified each as human or AI while reporting confidence. Participants performed poorly: mean accuracy was 37.5%, below chance in a binary classification task. At the stimulus level, misclassification was bidirectional: 75% of AI-generated clips were majority-labeled as human, while 62.5% of human-recorded clips were majority-labeled as AI. Signal Detection Theory analysis revealed near-zero discriminability (d' approx 0), indicating inability to reliably distinguish synthetic from human voices rather than simple response bias. Qualitative analysis of 315 coded excerpts revealed reliance on paralinguistic and emotional heuristics, including pauses, filler words, vocal variability, cadence, and emotional expressiveness. However, these surface-level cues traditionally associated with human authenticity were frequently replicated by AI-generated samples. Misclassifications were often accompanied by moderate to high confidence, suggesting perceptual miscalibration rather than uncertainty. Together, our findings demonstrate that authenticity judgments based on vocal heuristics are unreliable in contemporary vishing scenarios. We discuss implications for security interventions, user education, and AI-mediated deception mitigation.
Abstract（参考訳）: 大規模言語モデルと商用音声合成システムは、高度に現実的なAI生成音声スキャム(ビッシング)を可能にし、大規模な詐欺に対する緊急の懸念を提起する。しかし、現実的な詐欺の文脈でAIが生成した音声と人間の音声を確実に区別できるかどうか、そして知覚的戦略が判断を下すかどうかは不明だ。我々は,22人の被験者が16本のバイシングスタイルの音声クリップ(AI生成8本,人間記録8本)を評価し,信頼度を報告しながら,それぞれを人間またはAIに分類した,制御されたオンライン調査を行った。参加者の精度は37.5%で、二分分類タスクの確率より低い。刺激レベルでは、AI生成クリップの75%は人間として、62.5%はAIとして、誤分類は双方向であった。信号検出理論解析により, ほぼゼロの識別可能性 (d' Approx 0) が明らかとなった。 315の符号付き抜粋の質的分析により、ポーズ、充足語、発声性、ケイデンス、感情表現性など、パラ言語的および感情的ヒューリスティックスに依存することが明らかとなった。しかし、従来の人間の認証に関連する表面レベルの手がかりは、AIが生成したサンプルによってしばしば複製された。誤分類はしばしば中程度から高い信頼が伴い、不確実性よりも知覚的誤校正が示唆された。以上より,声道ヒューリスティックスに基づく真正性判断は,現代のヴァイシングのシナリオでは信頼性が低いことが示唆された。セキュリティ介入、ユーザ教育、AIによる偽装の軽減などについて論じる。

関連論文リスト

ADEPT: RL-Aligned Agentic Decoding of Emotion via Evidence Probing Tools -- From Consensus Learning to Ambiguity-Driven Emotion Reasoning [67.22219034602514]
ADEPT(Agentic Decoding of Emotion via Evidence Probing Tools)は,感情認識をマルチターン探索プロセスとして再構成するフレームワークである。 ADEPTはSLLMを進化する候補感情を維持するエージェントに変換し、専用のセマンティックおよび音響探査ツールを適応的に呼び出す。 ADEPTは、ほとんどの設定において主感情の精度を向上し、微妙な感情の特徴を著しく改善することを示した。
論文参考訳（メタデータ） (2026-02-13T08:33:37Z)
Do AI Voices Learn Social Nuances? A Case of Politeness and Speech Rate [0.0]
本研究は,現在最先端の音声合成システムにおいて,丁寧さを伝達するための発話速度を低下させる傾向があるかどうかを考察する。私たちは、2つの主要なAIプラットフォームから22の合成音声を誘導し、"政治とフォーマル"と"カジュアルと非公式"の両方の条件の下で固定されたスクリプトを読みました。両方のAIプラットフォームで、丁寧なプロンプトは、非常に大きな効果を持つカジュアルなプロンプトよりも遅い音声を生み出した。
論文参考訳（メタデータ） (2025-11-12T07:44:42Z)
Hallucination vs interpretation: rethinking accuracy and precision in AI-assisted data extraction for knowledge synthesis [0.9898534984111934]
我々は,大規模言語モデル(LLM)を用いてデータ抽出を自動化する抽出プラットフォームを開発した。我々は、AIを187の出版物で人間の反応と比較し、スコーピングレビューから17の質問を抽出した。 AIの多様性は幻覚よりも解釈可能性に依存している。
論文参考訳（メタデータ） (2025-08-13T03:33:30Z)
AI Debate Aids Assessment of Controversial Claims [73.8907110799657]
我々は、AI論争が、議論の的になっている事実性主張の側面に対立する2つのAIシステムを議論させることで、偏見のある裁判官を真実に導くことができるかどうかを調査する。研究Iでは、議論は人間の判断精度と信頼性の校正を継続的に改善し、コンサルタントを上回ります。研究IIでは、人間のような人格を持つAI裁判官は、人格を持たない人格(70.1%)やデフォルトのAI裁判官(69.8%)よりも高い精度(78.5%)を達成する。これらの調査結果は、AIの議論が、競争対象ドメインにおけるスケーラブルでバイアス耐性のある監視への有望な道であることを示している。
論文参考訳（メタデータ） (2025-06-02T19:01:53Z)
Almost AI, Almost Human: The Challenge of Detecting AI-Polished Writing [55.2480439325792]
本研究では、AI-Polished-Text Evaluationデータセットを用いて、12の最先端AIテキスト検出器を体系的に評価する。我々の発見によると、検出器は、最小限に洗練されたテキストをAI生成としてフラグ付けし、AIの関与度を区別し、古いモデルや小さなモデルに対するバイアスを示す。
論文参考訳（メタデータ） (2025-02-21T18:45:37Z)
People are poorly equipped to detect AI-powered voice clones [12.3166714008126]
同一性マッチングと自然性の観点から,AI生成音声の現実性について報告する。人間の参加者は、AIが生成した音声の記録を一貫して識別することはできない。
論文参考訳（メタデータ） (2024-10-03T21:26:58Z)
Human Bias in the Face of AI: Examining Human Judgment Against Text Labeled as AI Generated [48.70176791365903]
本研究では、偏見がAIと人為的コンテンツの知覚をどう形成するかを考察する。ラベル付きおよびラベルなしコンテンツに対するヒトのラッカーの反応について検討した。
論文参考訳（メタデータ） (2024-09-29T04:31:45Z)
As Good As A Coin Toss: Human detection of AI-generated images, videos, audio, and audiovisual stimuli [0.0]
本研究は,1276名の被験者を対象に,真偽メディアと合成メディアの識別能力を評価するための知覚的研究を行った。その結果、平均的な検出性能は50%に近づき、合成メディアと真正メディアの区別に苦慮していることがわかった。また,任意の種類の合成コンテンツを含む刺激が外国語を特徴とし,メディアタイプが単一モダリティである場合には,精度が低下することが判明した。
論文参考訳（メタデータ） (2024-03-25T13:39:33Z)
Seeing is not always believing: Benchmarking Human and Model Perception of AI-Generated Images [66.20578637253831]
人工知能(AI)技術の進歩が偽写真を生み出すのではないかという懸念が高まっている。本研究の目的は、最先端のAI生成視覚コンテンツを識別するためのエージェントを包括的に評価することである。
論文参考訳（メタデータ） (2023-04-25T17:51:59Z)
Fairness in AI and Its Long-Term Implications on Society [68.8204255655161]
AIフェアネスを詳しく見て、AIフェアネスの欠如が、時間の経過とともにバイアスの深化につながるかを分析します。偏りのあるモデルが特定のグループに対してよりネガティブな現実的な結果をもたらすかについて議論する。問題が続くと、他のリスクとの相互作用によって強化され、社会不安という形で社会に深刻な影響を及ぼす可能性がある。
論文参考訳（メタデータ） (2023-04-16T11:22:59Z)
Can Machines Imitate Humans? Integrative Turing-like tests for Language and Vision Demonstrate a Narrowing Gap [56.611702960809644]
3つの言語タスクと3つの視覚タスクで人間を模倣するAIの能力をベンチマークする。次に,人間1,916名,AI10名を対象に,72,191名のチューリング様試験を行った。模倣能力は従来のAIパフォーマンス指標と最小限の相関を示した。
論文参考訳（メタデータ） (2022-11-23T16:16:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。