論文の概要: Shimon the Rapper: A Real-Time System for Human-Robot Interactive Rap
Battles
- arxiv url: http://arxiv.org/abs/2009.09234v1
- Date: Sat, 19 Sep 2020 14:04:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-16 21:37:18.329943
- Title: Shimon the Rapper: A Real-Time System for Human-Robot Interactive Rap
Battles
- Title(参考訳): シモン・ザ・ラッパー(shimon the rapper) - 人間のロボットによるラッパー戦闘のリアルタイムシステム
- Authors: Richard Savery, Lisa Zahray, Gil Weinberg
- Abstract要約: 本研究では,ヒップホップスタイルの人間とロボットのリアルタイムなリリック即興システムを提案する。
本システムは人間のラッパーから音声入力を受け取り,その意味を解析し,音楽溝上でロボットによってラップバックされた応答を生成する。
- 参考スコア(独自算出の注目度): 1.7403133838762446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a system for real-time lyrical improvisation between a human and a
robot in the style of hip hop. Our system takes vocal input from a human
rapper, analyzes the semantic meaning, and generates a response that is rapped
back by a robot over a musical groove. Previous work with real-time interactive
music systems has largely focused on instrumental output, and vocal
interactions with robots have been explored, but not in a musical context. Our
generative system includes custom methods for censorship, voice, rhythm,
rhyming and a novel deep learning pipeline based on phoneme embeddings. The rap
performances are accompanied by synchronized robotic gestures and mouth
movements. Key technical challenges that were overcome in the system are
developing rhymes, performing with low-latency and dataset censorship. We
evaluated several aspects of the system through a survey of videos and sample
text output. Analysis of comments showed that the overall perception of the
system was positive. The model trained on our hip hop dataset was rated
significantly higher than our metal dataset in coherence, rhyme quality, and
enjoyment. Participants preferred outputs generated by a given input phrase
over outputs generated from unknown keywords, indicating that the system
successfully relates its output to its input.
- Abstract(参考訳): 本研究では,ヒップホップスタイルの人間とロボットのリアルタイムなリリック即興システムを提案する。
本システムは人間のラッパーから音声入力を受け取り,その意味を解析し,音楽溝上でロボットによってラップバックされた応答を生成する。
リアルタイムインタラクティブ音楽システムとのこれまでの作業は、主にインストゥルメンタルなアウトプットに焦点を当てており、ロボットとの音声インタラクションは検討されてきたが、音楽的な文脈では研究されていない。
我々の生成システムには、検閲、音声、リズム、リズム、リズムのカスタムメソッドと、音素埋め込みに基づく新しいディープラーニングパイプラインが含まれる。
ラップのパフォーマンスには、ロボットのジェスチャーと口の動きの同期が伴う。
システムで克服された主な技術的課題は、リズムの開発、低レイテンシとデータセット検閲の実行である。
映像調査とサンプルテキストの出力により,システムのいくつかの側面を評価した。
コメントの分析の結果,システム全体の認識は肯定的であった。
ヒップホップデータセットでトレーニングしたモデルは,コヒーレンス,韻律品質,楽しさにおいて,我々の金属データセットよりも有意に高く評価された。
参加者は、未知のキーワードから生成された出力よりも、与えられた入力句によって生成された出力を好む。
関連論文リスト
- Creativity and Visual Communication from Machine to Musician: Sharing a Score through a Robotic Camera [4.9485163144728235]
本稿では,「誘導ハーモニー」音楽ゲーム内にロボットカメラを実装することで,視覚コミュニケーションと音楽インタラクションの統合について検討する。
ロボットシステムは、ミュージシャンの非言語的手がかりを解釈し、応答し、協調的で適応的な音楽体験を作り出す。
論文 参考訳(メタデータ) (2024-09-09T16:34:36Z) - Affective social anthropomorphic intelligent system [1.7849339006560665]
本研究は、感情や性格と人間のような適切な会話をすることができる人間型知的システムを提案する。
特定の感情の属性をマッピングするために,音声スタイルの伝達法も提案されている。
論文 参考訳(メタデータ) (2023-04-19T18:24:57Z) - Play it by Ear: Learning Skills amidst Occlusion through Audio-Visual
Imitation Learning [62.83590925557013]
我々は視覚と音声の入力から、部分的に観察された操作タスクのセットを学習する。
提案システムは,遠隔操作による実演とオンラインファインタニングを併用することで,これらの課題を学習する。
模擬課題の集合において、我々のシステムは音声を使うことの恩恵を受けており、オンライン介入を用いることで、オフライン模倣学習の成功率を20%向上できることがわかった。
論文 参考訳(メタデータ) (2022-05-30T04:52:58Z) - Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。
提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文 参考訳(メタデータ) (2022-04-01T17:53:39Z) - Youling: an AI-Assisted Lyrics Creation System [72.00418962906083]
本稿では,AIによる歌詞作成システムである textitYouling について紹介する。
歌詞生成プロセスでは、textitYoulingは従来の1パスのフルテキスト生成モードとインタラクティブな生成モードをサポートする。
システムは、ユーザーが望まない文や歌詞の言葉を繰り返し修正できるリビジョンモジュールも提供する。
論文 参考訳(メタデータ) (2022-01-18T03:57:04Z) - Responsive Listening Head Generation: A Benchmark Dataset and Baseline [58.168958284290156]
本研究では、応答型リスニングヘッド生成タスクを、複数の入力に応答する動きと表現を持つ非言語ヘッドの合成として定義する。
音声によるジェスチャーや音声のヘッド生成とは違って,いくつかの研究分野の恩恵を期待して,このタスクにより多くのモーダルを導入する。
論文 参考訳(メタデータ) (2021-12-27T07:18:50Z) - DeepRapper: Neural Rap Generation with Rhyme and Rhythm Modeling [102.50840749005256]
ラップ生成におけるこれまでの研究は、韻律的な歌詞に重点を置いていたが、ラップ演奏に重要なリズムビートを無視していた。
本稿では,韻律とリズムの両方をモデル化可能なトランスフォーマーベースのラプ生成システムであるDeepRapperを開発する。
論文 参考訳(メタデータ) (2021-07-05T09:01:46Z) - LyricJam: A system for generating lyrics for live instrumental music [11.521519161773288]
本稿では、ジャムセッションからライブオーディオストリームを受信し、演奏中のライブ音楽と一致した歌詞行を生成するリアルタイムシステムについて述べる。
学習した音声およびテキスト表現の潜在空間を整列させる2つの新しい手法が提案されている。
論文 参考訳(メタデータ) (2021-06-03T16:06:46Z) - Melody-Conditioned Lyrics Generation with SeqGANs [81.2302502902865]
本稿では,SeqGAN(Sequence Generative Adversarial Networks)に基づく,エンドツーエンドのメロディ条件付き歌詞生成システムを提案する。
入力条件が評価指標に悪影響を及ぼすことなく,ネットワークがより有意義な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-10-28T02:35:40Z) - Rapformer: Conditional Rap Lyrics Generation with Denoising Autoencoders [14.479052867589417]
テキストの内容(ニュース記事など)に基づいてラップ詩を合成する手法を開発する。
我々の手法はRapformerと呼ばれ、トランスフォーマーをベースとしたデノナイズ・オートエンコーダをトレーニングし、歌詞から抽出した内容語からラップ歌詞を再構成する。
Rapformerは、コンテンツ保存とスタイル転送の間に良いトレードオフをもたらす技術に精通した詩を生成することができる。
論文 参考訳(メタデータ) (2020-04-08T12:24:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。