論文の概要: Sketching With Your Voice: "Non-Phonorealistic" Rendering of Sounds via Vocal Imitation
- arxiv url: http://arxiv.org/abs/2409.13507v1
- Date: Fri, 20 Sep 2024 13:48:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 06:53:09.562805
- Title: Sketching With Your Voice: "Non-Phonorealistic" Rendering of Sounds via Vocal Imitation
- Title(参考訳): 音声によるスケッチ:「非現実的」な音のレンダリング
- Authors: Matthew Caren, Kartik Chandra, Joshua B. Tenenbaum, Jonathan Ragan-Kelley, Karima Ma,
- Abstract要約: 人間の声の模倣を再現する手法を提案する。
まず、モデルの制御パラメータを調整して、音声の模倣を生成する。
人間の話者が聴取者に対して戦略的に判断する方法について,コミュニケーションの認知理論を適用した。
- 参考スコア(独自算出の注目度): 44.50441058435848
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a method for automatically producing human-like vocal imitations of sounds: the equivalent of "sketching," but for auditory rather than visual representation. Starting with a simulated model of the human vocal tract, we first try generating vocal imitations by tuning the model's control parameters to make the synthesized vocalization match the target sound in terms of perceptually-salient auditory features. Then, to better match human intuitions, we apply a cognitive theory of communication to take into account how human speakers reason strategically about their listeners. Finally, we show through several experiments and user studies that when we add this type of communicative reasoning to our method, it aligns with human intuitions better than matching auditory features alone does. This observation has broad implications for the study of depiction in computer graphics.
- Abstract(参考訳): 本研究では,人間の声の模倣を自動生成する手法を提案する。
まず、人間の声道の模擬モデルから、まずモデルの制御パラメータを調整して声道模倣を試み、その合成音声を聴覚的特徴の観点から対象音と一致させる。
そして,人間の直感に合うようにコミュニケーションの認知理論を適用し,人間の話者が聴取者に対して戦略的に判断する方法について考察する。
最後に,本手法にこのようなコミュニケーション的推論を加えると,聴覚的特徴のみに適合するよりも人間の直感に適合することを示す実験とユーザスタディについて述べる。
この観察はコンピュータグラフィックスにおける描写の研究に幅広い意味を持っている。
関連論文リスト
- Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - Make-A-Voice: Unified Voice Synthesis With Discrete Representation [77.3998611565557]
Make-A-Voiceは、個別表現から音声信号を合成・操作するための統合されたフレームワークである。
我々は,Make-A-Voiceは,競合するベースラインモデルと比較して,音質とスタイルの類似性が優れていることを示す。
論文 参考訳(メタデータ) (2023-05-30T17:59:26Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Repeat after me: Self-supervised learning of acoustic-to-articulatory
mapping by vocal imitation [9.416401293559112]
そこで本稿では,限定的な解釈可能な音声パラメータ集合から複雑な音声刺激を再現可能な,事前学習されたニューラル音声合成器を組み合わせた音声生成の計算モデルを提案する。
フォワードモデルと逆モデルの両方は、異なる話者からの生の音響のみの音声データから、自己指導的な方法で共同で訓練される。
模倣シミュレーションは客観的かつ主観的に評価され、非常に奨励的なパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-04-05T15:02:49Z) - Controlled AutoEncoders to Generate Faces from Voices [30.062970046955577]
学習された音声と顔の相関によって暗黙的に顔の特徴が導かれるように、所定の声に反応して対象の顔を変化させる枠組みを提案する。
我々はVoxCelabとVGGFaceのデータセットの枠組みを人体と顔検索を通して評価した。
論文 参考訳(メタデータ) (2021-07-16T16:04:29Z) - Learning Audio-Visual Dereverberation [87.52880019747435]
環境中の表面や物体を反射する音声からの残響は、人間の知覚の質を低下させるだけでなく、自動音声認識の精度にも深刻な影響を及ぼす。
我々の考えは、音声・視覚的観察から音声を除去することである。
そこで我々は,観測音と映像シーンの両方に基づいて残響を除去することを学ぶエンドツーエンドアプローチである,視覚インフォームド・デバーベレーション・オブ・オーディオ(VIDA)を紹介した。
論文 参考訳(メタデータ) (2021-06-14T20:01:24Z) - Predicting Emotions Perceived from Sounds [2.9398911304923447]
音化とは、音を通してユーザとデータやイベントを通信する科学である。
本稿では、いくつかの主流および従来型の機械学習アルゴリズムを開発する実験を行う。
知覚された感情を高い精度で予測することが可能である。
論文 参考訳(メタデータ) (2020-12-04T15:01:59Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - Parametric Representation for Singing Voice Synthesis: a Comparative
Evaluation [10.37199090634032]
まず,統計的パラメトリック合成に適した4つの既存手法に対して比較主観評価を行う。
ハイピッチ音声で発生するアーティファクトについて論じ,それを克服するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-06-07T13:06:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。