論文の概要: Robot Synesthesia: A Sound and Emotion Guided AI Painter
- arxiv url: http://arxiv.org/abs/2302.04850v1
- Date: Thu, 9 Feb 2023 18:53:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-10 14:40:14.835863
- Title: Robot Synesthesia: A Sound and Emotion Guided AI Painter
- Title(参考訳): ロボットの合成: 音と感情を誘導するAIペイント
- Authors: Vihaan Misra, Peter Schaldenbrand and Jean Oh
- Abstract要約: 本稿では,ロボット合成と呼ばれるロボット塗装プロセスの指導に音声と音声を用いたアプローチを提案する。
一般音に対しては,模擬絵画を符号化し,同じ潜在空間に入力音を符号化する。音声では,音声をその書き起こしテキストと音声のトーンに分離する。テキストを用いて内容を制御する一方で,そのトーンからの感情を推定し,絵のムードを導出する。
- 参考スコア(独自算出の注目度): 10.357474047610172
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: If a picture paints a thousand words, sound may voice a million. While recent
robotic painting and image synthesis methods have achieved progress in
generating visuals from text inputs, the translation of sound into images is
vastly unexplored. Generally, sound-based interfaces and sonic interactions
have the potential to expand accessibility and control for the user and provide
a means to convey complex emotions and the dynamic aspects of the real world.
In this paper, we propose an approach for using sound and speech to guide a
robotic painting process, known here as robot synesthesia. For general sound,
we encode the simulated paintings and input sounds into the same latent space.
For speech, we decouple speech into its transcribed text and the tone of the
speech. Whereas we use the text to control the content, we estimate the
emotions from the tone to guide the mood of the painting. Our approach has been
fully integrated with FRIDA, a robotic painting framework, adding sound and
speech to FRIDA's existing input modalities, such as text and style. In two
surveys, participants were able to correctly guess the emotion or natural sound
used to generate a given painting more than twice as likely as random chance.
On our sound-guided image manipulation and music-guided paintings, we discuss
the results qualitatively.
- Abstract(参考訳): 絵が千語を描けば、音は百万声になるかもしれない。
最近のロボット絵画や画像合成手法は、テキスト入力から視覚を生成する進歩を遂げているが、音声から画像への変換は極めて未開拓である。
一般に、音声インタフェースと音素相互作用は、ユーザへのアクセシビリティと制御を広げ、複雑な感情や現実世界の動的な側面を伝える手段を提供する可能性がある。
本稿では,ロボット合成と呼ばれる,ロボットによる絵画プロセスの指導に音声と音声を用いる手法を提案する。
一般的な音では、シミュレーションされた絵画と入力音を同じ潜在空間にエンコードする。
音声の場合、音声を書き起こされたテキストと音声のトーンに分離する。
テキストを使って内容を制御する一方で、トーンからの感情を推定し、絵のムードを導く。
提案手法はロボット絵画フレームワークであるFRIDAと完全に統合され,テキストやスタイルなど,FRIDAの既存の入力モダリティに音声と音声を付加する。
2つの調査では、被験者は与えられた絵画をランダムな確率の2倍以上の確率で生成するのに使用される感情や自然な音を正確に推測することができた。
音響誘導画像操作と音楽誘導絵画について質的に検討した。
関連論文リスト
- EmoFace: Audio-driven Emotional 3D Face Animation [3.573880705052592]
EmoFaceは、鮮やかな感情的ダイナミクスを備えた顔アニメーションを作成するための、新しいオーディオ駆動の方法論である。
提案手法では,複数の感情で表情を生成でき,ランダムだが自然な点滅や眼球運動を生成できる。
提案手法は、ビデオゲームでプレイ不可能なキャラクターの対話アニメーションを作成し、バーチャルリアリティ環境でアバターを駆動するのに有効である。
論文 参考訳(メタデータ) (2024-07-17T11:32:16Z) - Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs [67.27840327499625]
本稿では,デジタル文字の表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。
提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
論文 参考訳(メタデータ) (2024-06-26T04:53:11Z) - Text-driven Talking Face Synthesis by Reprogramming Audio-driven Models [64.14812728562596]
本稿では,事前学習した音声駆動音声合成モデルをテキスト駆動で動作させる手法を提案する。
提供されたテキスト文を記述した顔ビデオを簡単に生成できる。
論文 参考訳(メタデータ) (2023-06-28T08:22:53Z) - Align, Adapt and Inject: Sound-guided Unified Image Generation [50.34667929051005]
本稿では,音声誘導画像生成,編集,スタイリングのための統合フレームワーク「アライン,アダプティブ,インジェクション(AAI)」を提案する。
本手法は,既存のテキスト・ツー・イメージ(T2I)モデルを用いて,入力音を通常の単語のように音声トークンに適応させる。
提案するAAIは、他のテキストや音声誘導方式よりも優れています。
論文 参考訳(メタデータ) (2023-06-20T12:50:49Z) - Learning to Dub Movies via Hierarchical Prosody Models [167.6465354313349]
テキスト、ビデオクリップ、レファレンスオーディオが与えられたとき、映画ダビング(Visual Voice clone V2C)タスクは、所望の話者音声を参照としてビデオに提示された話者の感情にマッチした音声を生成することを目的としている。
本稿では,これらの問題に階層的韻律モデルを用いて対処する新しい映画ダビングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-12-08T03:29:04Z) - Describing emotions with acoustic property prompts for speech emotion
recognition [30.990720176317463]
本研究では、ピッチ、ラウドネス、発声率、調音率などの音響特性を演算することで、所定の音声に対する記述を自動生成する手法を提案する。
これらの音声テキストペアを用いてニューラルネットワークモデルをトレーニングし、さらに1つのデータセットを用いてモデルを評価する。
モデルが音声と記述を関連づけることについて検討し,その結果,音声の感情認識と音声検索の性能が向上した。
論文 参考訳(メタデータ) (2022-11-14T20:29:37Z) - Robust Sound-Guided Image Manipulation [17.672008998994816]
本稿では,まず,音声を用いた画像-テキスト共同埋め込み空間を拡張した新しい手法を提案する。
実験により,我々の音声誘導画像操作手法は,意味的かつ視覚的により妥当な操作結果をもたらすことが示された。
論文 参考訳(メタデータ) (2022-08-30T09:59:40Z) - LaughNet: synthesizing laughter utterances from waveform silhouettes and
a single laughter example [55.10864476206503]
我々は、波形シルエットを入力として、笑いを合成するLaughNetと呼ばれるモデルを提案する。
その結果,LaughNetは笑い声を適度な品質で合成し,トレーニング例の特徴を保てることがわかった。
論文 参考訳(メタデータ) (2021-10-11T00:45:07Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - Generating coherent spontaneous speech and gesture from text [21.90157862281996]
人体コミュニケーションは、言語情報(音声)と非言語情報(ジェスチャーや頭の動きなど)の両方を含む
機械学習の最近の進歩は、これらのデータの両方の合成バージョンを生成する技術を大幅に改善した。
私たちはこの2つの最先端技術を初めてコヒーレントな方法で組み合わせました。
論文 参考訳(メタデータ) (2021-01-14T16:02:21Z) - Speech Driven Talking Face Generation from a Single Image and an Emotion
Condition [28.52180268019401]
音声駆動音声合成における視覚的感情表現のレンダリングのための新しい手法を提案する。
本研究では, 音声音声, 単一顔画像, カテゴリー感情ラベルを入力として, エンドツーエンドの音声音声生成システムの設計を行う。
画像品質,視覚的同期,視覚的感情表現を客観的に評価した結果,提案システムは最先端のベースラインシステムよりも優れていた。
論文 参考訳(メタデータ) (2020-08-08T20:46:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。