論文の概要: Leveraging AI to Generate Audio for User-generated Content in Video Games
- arxiv url: http://arxiv.org/abs/2404.17018v1
- Date: Thu, 25 Apr 2024 20:24:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-29 14:33:49.389802
- Title: Leveraging AI to Generate Audio for User-generated Content in Video Games
- Title(参考訳): ビデオゲームにおけるユーザ生成コンテンツのための音声生成にAIを活用する
- Authors: Thomas Marrinan, Pakeeza Akram, Oli Gurmessa, Anthony Shishkin,
- Abstract要約: ユーザが生成したコンテンツに基づいて、生成人工知能を用いて音楽や音響効果を生み出す方法について検討する。
本稿では,ユーザ生成コンテンツに生成人工知能を用いることによる倫理的意味について論じる。
- 参考スコア(独自算出の注目度): 0.8999666725996978
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In video game design, audio (both environmental background music and object sound effects) play a critical role. Sounds are typically pre-created assets designed for specific locations or objects in a game. However, user-generated content is becoming increasingly popular in modern games (e.g. building custom environments or crafting unique objects). Since the possibilities are virtually limitless, it is impossible for game creators to pre-create audio for user-generated content. We explore the use of generative artificial intelligence to create music and sound effects on-the-fly based on user-generated content. We investigate two avenues for audio generation: 1) text-to-audio: using a text description of user-generated content as input to the audio generator, and 2) image-to-audio: using a rendering of the created environment or object as input to an image-to-text generator, then piping the resulting text description into the audio generator. In this paper we discuss ethical implications of using generative artificial intelligence for user-generated content and highlight two prototype games where audio is generated for user-created environments and objects.
- Abstract(参考訳): ビデオゲームのデザインでは、オーディオ(環境背景音楽とオブジェクト音響効果の両方)が重要な役割を果たす。
サウンドは通常、ゲーム内の特定の場所やオブジェクトのために設計された、事前に作成された資産である。
しかし、ユーザー生成コンテンツは現代のゲーム(例えばカスタム環境の構築やユニークなオブジェクトの作成)で人気が高まっている。
可能性はほぼ無限であるため、ゲーム制作者がユーザー生成コンテンツのオーディオを事前に作成することは不可能である。
ユーザが生成したコンテンツに基づいて、生成人工知能を用いて音楽や音響効果を生み出す方法について検討する。
音声生成のための2つの道について検討する。
1)テキスト・トゥ・オーディオ: ユーザ生成コンテンツのテキスト記述をオーディオ生成装置への入力として使用し、
Image-to-audio: 生成された環境やオブジェクトのレンダリングを Image-to-text ジェネレータへの入力として使用し、結果のテキスト記述をオーディオジェネレータに配管する。
本稿では,ユーザ生成コンテンツに生成人工知能を用いることによる倫理的意味を論じ,ユーザ生成環境やオブジェクトに対して音声が生成される2つのプロトタイプゲームを強調する。
関連論文リスト
- Action2Sound: Ambient-Aware Generation of Action Sounds from Egocentric Videos [87.32349247938136]
既存のアプローチでは、トレーニング中にビデオとオーディオの完全な対応を暗黙的に仮定する。
環境に配慮した新しいオーディオ生成モデルAV-LDMを提案する。
我々のアプローチは、観察された視覚コンテンツに忠実にビデオ・オーディオ生成を集中させる最初の方法である。
論文 参考訳(メタデータ) (2024-06-13T16:10:19Z) - Zero-shot audio captioning with audio-language model guidance and audio
context keywords [59.58331215337357]
タスク固有の訓練を必要とせず、テキストキャプション内の一般的な音声信号を要約する新しいフレームワークであるZerAuCapを提案する。
本フレームワークは,事前学習された大言語モデル(LLM)を用いて,事前学習された音声モデルによって指導されたテキストを生成し,キャプションを生成する。
提案手法は,AudioCaps と Clotho のデータセットにゼロショット音声キャプションを付加することで,最先端の音声キャプションを実現する。
論文 参考訳(メタデータ) (2023-11-14T18:55:48Z) - An Initial Exploration: Learning to Generate Realistic Audio for Silent
Video [0.0]
本研究では,映像を自然なシーケンスで観察し,それに伴うリアルな音声を生成するフレームワークを開発する。
特に、他の入力に条件付けされた現実的な音声生成技術の進歩により実現可能であると考える理由がある。
変換器をベースとしたアーキテクチャが最も有望な結果が得られ、低頻度と視覚パターンを効果的に一致させる。
論文 参考訳(メタデータ) (2023-08-23T20:08:56Z) - WavJourney: Compositional Audio Creation with Large Language Models [38.39551216587242]
We present WavJourney, a novel framework that leverages Large Language Models to connect various audio model for audio creation。
WavJourneyを使えば、ユーザーはテキストによる説明だけで様々なオーディオ要素でストーリーテリングオーディオコンテンツを作成できる。
We show that WavJourney are capable to synthesize real audio aligned with textual-description semantic, spatial and temporal conditions。
論文 参考訳(メタデータ) (2023-07-26T17:54:04Z) - IteraTTA: An interface for exploring both text prompts and audio priors
in generating music with text-to-audio models [40.798454815430034]
IteraTTAは、ユーザーがテキストプロンプトを書き換えたり、生成されたオーディオから好ましいオーディオを選択できるように設計されている。
本実装と議論は,テキスト・トゥ・オーディオ・モデルに特に必要とされる設計上の考察を強調した。
論文 参考訳(メタデータ) (2023-07-24T11:00:01Z) - Epic-Sounds: A Large-scale Dataset of Actions That Sound [64.24297230981168]
Epic-Soundsは、時間範囲とクラスラベルをキャプチャする大規模なオーディオアノテーションデータセットである。
我々は、これらの自由形式の音声記述をクラスにまとめることで、純粋に音声と区別できる行動を特定する。
全体として、Epic-Soundsには78.4kの分類された音声イベントとアクションのセグメントがあり、44のクラスにまたがって配布され、39.2kの非分類セグメントが含まれている。
論文 参考訳(メタデータ) (2023-02-01T18:19:37Z) - Visually-Aware Audio Captioning With Adaptive Audio-Visual Attention [54.4258176885084]
曖昧な音を正確に認識する方法は、音声キャプションにとって大きな課題である。
本稿では,視覚情報を利用して不明瞭な音の物体の記述を支援する視覚認識型音声キャプションを提案する。
提案手法は,機械翻訳メトリクスの最先端結果を実現する。
論文 参考訳(メタデータ) (2022-10-28T22:45:41Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Generating Visually Aligned Sound from Videos [83.89485254543888]
自然ビデオから音を生成するタスクに焦点をあてる。
音は時間的にも内容的にも視覚信号と一致しているべきです。
カメラの外部で発生する音は、ビデオコンテンツから推測することはできない。
論文 参考訳(メタデータ) (2020-07-14T07:51:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。