論文の概要: PRAC3 (Privacy, Reputation, Accountability, Consent, Credit, Compensation): Long Tailed Risks of Voice Actors in AI Data-Economy
- arxiv url: http://arxiv.org/abs/2507.16247v1
- Date: Tue, 22 Jul 2025 05:39:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:13.977942
- Title: PRAC3 (Privacy, Reputation, Accountability, Consent, Credit, Compensation): Long Tailed Risks of Voice Actors in AI Data-Economy
- Title(参考訳): PRAC3(Privacy, Reputation, Accountability, Consent, Credit, Compensation):AIデータ経済における音声アクターの長期化リスク
- Authors: Tanusree Sharma, Yihao Zhou, Visar Berisha,
- Abstract要約: 本稿では,強制的制約を伴わない音声の合成複製が,個人を様々な脅威に晒す方法を明らかにする。
本稿では,プライバシ,評価,説明責任,同意,信用,補償を合成音声経済におけるデータ柱として活用するPRAC3フレームワークを紹介する。
- 参考スコア(独自算出の注目度): 11.226909625412373
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Early large-scale audio datasets, such as LibriSpeech, were built with hundreds of individual contributors whose voices were instrumental in the development of speech technologies, including audiobooks and voice assistants. Yet, a decade later, these same contributions have exposed voice actors to a range of risks. While existing ethical frameworks emphasize Consent, Credit, and Compensation (C3), they do not adequately address the emergent risks involving vocal identities that are increasingly decoupled from context, authorship, and control. Drawing on qualitative interviews with 20 professional voice actors, this paper reveals how the synthetic replication of voice without enforceable constraints exposes individuals to a range of threats. Beyond reputational harm, such as re-purposing voice data in erotic content, offensive political messaging, and meme culture, we document concerns about accountability breakdowns when their voice is leveraged to clone voices that are deployed in high-stakes scenarios such as financial fraud, misinformation campaigns, or impersonation scams. In such cases, actors face social and legal fallout without recourse, while very few of them have a legal representative or union protection. To make sense of these shifting dynamics, we introduce the PRAC3 framework, an expansion of C3 that foregrounds Privacy, Reputation, Accountability, Consent, Credit, and Compensation as interdependent pillars of data used in the synthetic voice economy. This framework captures how privacy risks are amplified through non-consensual training, how reputational harm arises from decontextualized deployment, and how accountability can be reimagined AI Data ecosystems. We argue that voice, as both a biometric identifier and creative labor, demands governance models that restore creator agency, ensure traceability, and establish enforceable boundaries for ethical reuse.
- Abstract(参考訳): LibriSpeechのような初期の大規模オーディオデータセットは、音声ブックや音声アシスタントを含む音声技術の発展に寄与する数百人の個人コントリビュータによって構築された。
しかし10年後、これらの同じ貢献が声優に様々なリスクを及ぼした。
既存の倫理的枠組みでは、Consent, Credit, and Compensation (C3) が強調されているが、彼らは文脈、著者、管理から分離する傾向にある声のアイデンティティに関する突発的なリスクに適切に対処していない。
本稿では,20名のプロ声優との質的なインタビューをもとに,強制的制約を伴わない音声の合成複製が,個人を様々な脅威に晒す方法を明らかにする。
エロティックなコンテンツ、攻撃的な政治メッセージ、ミームカルチャーにおける音声データの再取得などの評判の害に加えて、金融詐欺、偽情報キャンペーン、偽造詐欺などの高額なシナリオに展開されるクローン音声に音声が活用される際の説明責任の破綻に関する懸念も文書化している。
このような場合、俳優は無言で社会的、法的に転落するが、法律上の代表者や組合の保護を受ける者はほとんどいない。
これらのシフトのダイナミクスを理解するために、合成音声経済で使用されるデータの相互依存的な柱として、プライバシ、評価、説明責任、同意、信用、補償を前提としたC3の拡張であるPRAC3フレームワークを紹介します。
このフレームワークは、非コンセンサストレーニングによるプライバシリスクの増幅、非コンテクスト化されたデプロイメントによる評判の害の発生、AIデータエコシステムの再定義の可否をキャプチャする。
音声は、生体認証と創造的労働の両方として、創造体を復元し、トレーサビリティを確保し、倫理的再利用のための強制可能な境界を確立するガバナンスモデルを要求する。
関連論文リスト
- WaveVerify: A Novel Audio Watermarking Framework for Media Authentication and Combatting Deepfakes [3.9440964696313485]
2024年、ディープフェイク詐欺の試みは2023年に比べて1300%以上急増した。
金融セクターは特に影響を受けており、ボイス詐欺で1000万ドル以上を失った。
規制当局と政府は、AIコンテンツの透明性とトレーサビリティを改善するための措置を講じている。
論文 参考訳(メタデータ) (2025-07-23T21:16:08Z) - Revival with Voice: Multi-modal Controllable Text-to-Speech Synthesis [52.25128289155576]
本稿では,顔画像から音声を生成するマルチモーダル制御可能なテキスト音声合成(TTS)について検討する。
顔駆動型TSシステムにおける以下の3つの課題を軽減することを目的としている。
顔駆動音声合成におけるモデルの有効性を実験的に検証した。
論文 参考訳(メタデータ) (2025-05-25T04:43:17Z) - VoiceCloak: A Multi-Dimensional Defense Framework against Unauthorized Diffusion-based Voice Cloning [14.907575859145423]
拡散モデル(DM)は現実的な音声クローニング(VC)において顕著な成功を収めた
DMは、拡散の複雑な生成機構により、プロアクティブな防御と相容れないことが証明されている。
我々はVoiceCloakを紹介した。VoiceCloakは多次元のプロアクティブ・ディフェンス・フレームワークで、話者のアイデンティティを曖昧にし、潜在的な不正なVCの品質を劣化させることを目的としている。
論文 参考訳(メタデータ) (2025-05-18T09:58:48Z) - Whispering Under the Eaves: Protecting User Privacy Against Commercial and LLM-powered Automatic Speech Recognition Systems [20.45938874279563]
本稿では,音声認識システムに対して音声認識を保護するための新しいフレームワークであるAudioShieldを提案する。
摂動を潜伏空間に転送することにより、音質は広範囲に保存される。
AudioShieldは、リアルタイムのエンドツーエンドシナリオにおいて高い効果を示し、適応的な対策に対して強力なレジリエンスを示す。
論文 参考訳(メタデータ) (2025-04-01T14:49:39Z) - On the Generation and Removal of Speaker Adversarial Perturbation for Voice-Privacy Protection [45.49915832081347]
近年の音声プライバシ保護の進歩は,話者の音声属性を隠蔽する同じ手法の肯定的な使用例を示している。
本稿では,逆方向の摂動を発生させるエンティティを除去し,元の音声を復元する可逆性について検討する。
同様の手法は、捜査員が音声保護されたスピーチを匿名化し、犯罪者の身元をセキュリティと法医学的分析で復元するためにも用いられる。
論文 参考訳(メタデータ) (2024-12-12T11:46:07Z) - Not My Voice! A Taxonomy of Ethical and Safety Harms of Speech Generators [2.500481442438427]
我々は、特定の害のパターンがどのように生じるかを研究するために、音声生成インシデントを分析する。
本稿では,AIの倫理的・安全的害に対する経路をモデル化するための概念的枠組みを提案する。
我々のリレーショナルアプローチは、社会技術AIシステムにおけるリスクと害の複雑さを捉えます。
論文 参考訳(メタデータ) (2024-01-25T11:47:06Z) - Speech collage: code-switched audio generation by collaging monolingual
corpora [50.356820349870986]
Speech Collage は音声セグメントをスプライシングすることでモノリンガルコーパスからCSデータを合成する手法である。
2つのシナリオにおける音声認識における生成データの影響について検討する。
論文 参考訳(メタデータ) (2023-09-27T14:17:53Z) - Make-A-Voice: Unified Voice Synthesis With Discrete Representation [77.3998611565557]
Make-A-Voiceは、個別表現から音声信号を合成・操作するための統合されたフレームワークである。
我々は,Make-A-Voiceは,競合するベースラインモデルと比較して,音質とスタイルの類似性が優れていることを示す。
論文 参考訳(メタデータ) (2023-05-30T17:59:26Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Voicy: Zero-Shot Non-Parallel Voice Conversion in Noisy Reverberant
Environments [76.98764900754111]
音声変換(Voice Conversion, VC)は, 音源発話の非言語情報を変換し, 話者の同一性を変化させることを目的とした技術である。
我々は、特に騒々しいスピーチに適した新しいVCフレームワークであるVoicyを提案する。
自動エンコーダフレームワークにインスパイアされた本手法は,4つのエンコーダ(スピーカ,コンテンツ,音声,音響-ASR)と1つのデコーダから構成される。
論文 参考訳(メタデータ) (2021-06-16T15:47:06Z) - Speaker De-identification System using Autoencoders and Adversarial
Training [58.720142291102135]
本稿では,対人訓練とオートエンコーダに基づく話者識別システムを提案する。
実験結果から, 対向学習とオートエンコーダを組み合わせることで, 話者検証システムの誤り率が同等になることがわかった。
論文 参考訳(メタデータ) (2020-11-09T19:22:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。