論文の概要: Do AI Voices Learn Social Nuances? A Case of Politeness and Speech Rate
- arxiv url: http://arxiv.org/abs/2511.10693v1
- Date: Wed, 12 Nov 2025 07:44:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.273059
- Title: Do AI Voices Learn Social Nuances? A Case of Politeness and Speech Rate
- Title(参考訳): AI音声はソーシャルナースを学ぶか? : ポリテネスと発話率の事例
- Authors: Eyal Rabin, Zohar Elyoseph, Rotem Israel-Fishelson, Adi Dali, Ravit Nussinson,
- Abstract要約: 本研究は,現在最先端の音声合成システムにおいて,丁寧さを伝達するための発話速度を低下させる傾向があるかどうかを考察する。
私たちは、2つの主要なAIプラットフォームから22の合成音声を誘導し、"政治とフォーマル"と"カジュアルと非公式"の両方の条件の下で固定されたスクリプトを読みました。
両方のAIプラットフォームで、丁寧なプロンプトは、非常に大きな効果を持つカジュアルなプロンプトよりも遅い音声を生み出した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Voice-based artificial intelligence is increasingly expected to adhere to human social conventions, but can it learn implicit cues that are not explicitly programmed? This study investigates whether state-of-the-art text-to-speech systems have internalized the human tendency to reduce speech rate to convey politeness - a non-obvious prosodic marker. We prompted 22 synthetic voices from two leading AI platforms (AI Studio and OpenAI) to read a fixed script under both "polite and formal" and "casual and informal" conditions and measured the resulting speech duration. Across both AI platforms, the polite prompt produced slower speech than the casual prompt with very large effect sizes, an effect that was statistically significant for all of AI Studio's voices and for a large majority of OpenAI's voices. These results demonstrate that AI can implicitly learn and replicate psychological nuances of human communication, highlighting its emerging role as a social actor capable of reinforcing human social norms.
- Abstract(参考訳): 音声ベースの人工知能は、人間の社会慣習に順応することがますます期待されているが、明示的にプログラムされていない暗黙の手がかりを学習できるだろうか?
本研究では,現在最先端の音声合成システムが,発話速度を低下させ,礼儀正しく伝達する傾向を内包しているかどうかを考察する。
我々は,2つの主要なAIプラットフォーム(AI StudioとOpenAI)から22の合成音声を「政治的・形式的」な条件と「因果的・非公式な」な条件下で読み上げ,その結果の音声持続時間を測定した。
両方のAIプラットフォーム全体で、丁寧なプロンプトは、非常に大きな効果を持つカジュアルなプロンプトよりも遅いスピーチを生み出した。
これらの結果は、AIが人間のコミュニケーションの心理的ニュアンスを暗黙的に学習し、再現できることを示し、人間の社会的規範を補強できる社会的アクターとしての役割を浮き彫りにしている。
関連論文リスト
- Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Role-Play [21.93291433513335]
Voilaは応答遅延をわずか195ミリ秒で達成し、平均的な人間の応答時間を上回る。
その階層的なマルチスケールトランスフォーマーは、大規模言語モデルの推論機能を統合する。
Voilaは、100万以上のプレビルドされた音声をサポートし、短いオーディオサンプルから10秒で新しい音声を効率的にカスタマイズする。
論文 参考訳(メタデータ) (2025-05-05T15:05:01Z) - Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。
我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。
その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文 参考訳(メタデータ) (2024-09-30T06:29:58Z) - MindSpeech: Continuous Imagined Speech Decoding using High-Density fNIRS and Prompt Tuning for Advanced Human-AI Interaction [0.0]
本稿では,脳とAIの直接インターフェースを開発することによって,人間とAIのインタラクションを実現する新しい手法を提案する。
我々はMindSpeechと呼ばれる新しいAIモデルについて論じる。
4名中3名に対してBLEU-1,BERT Pスコアなどの指標を有意に改善した。
論文 参考訳(メタデータ) (2024-07-25T16:39:21Z) - Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
本稿では,ペア音声とテキストコーパスを使わずにASRシステムを開発するという課題に取り組む。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
この革新的なモデルは、レキシコンフリー環境下での以前の教師なしASRモデルの性能を上回る。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - Real-time Detection of AI-Generated Speech for DeepFake Voice Conversion [4.251500966181852]
本研究は,8人の有名な人物の実際の音声と,その音声を検索型音声変換を用いて互いに変換する。
エクストリーム・グラディエント・ブースティング・モデルは99.3%の平均的な分類精度を達成でき、音声の1秒あたり0.004ミリ秒のリアルタイムな分類が可能であることが判明した。
論文 参考訳(メタデータ) (2023-08-24T12:26:15Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - Can Machines Imitate Humans? Integrative Turing-like tests for Language and Vision Demonstrate a Narrowing Gap [56.611702960809644]
3つの言語タスクと3つの視覚タスクで人間を模倣するAIの能力をベンチマークする。
次に,人間1,916名,AI10名を対象に,72,191名のチューリング様試験を行った。
模倣能力は従来のAIパフォーマンス指標と最小限の相関を示した。
論文 参考訳(メタデータ) (2022-11-23T16:16:52Z) - Speech Synthesis as Augmentation for Low-Resource ASR [7.2244067948447075]
音声合成は低リソース音声認識の鍵となるかもしれない。
データ拡張技術は、現代の音声認識トレーニングの重要な部分となっている。
音声合成技術は、人間のような音声を達成するという目標に急速に近づきつつある。
論文 参考訳(メタデータ) (2020-12-23T22:19:42Z) - Learning Explicit Prosody Models and Deep Speaker Embeddings for
Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。
韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。
変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文 参考訳(メタデータ) (2020-11-03T13:08:53Z) - Detection of AI-Synthesized Speech Using Cepstral & Bispectral
Statistics [0.0]
本稿では,AI合成音声と人間の音声を区別する手法を提案する。
高次統計は、合成音声と比較して人間の音声の相関が低い。
また, ケプストラム分析により, 合成音声に欠落する人間の音声の耐久性成分が明らかになった。
論文 参考訳(メタデータ) (2020-09-03T21:29:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。