論文の概要: What Do I Hear? Generating Sounds for Visuals with ChatGPT
- arxiv url: http://arxiv.org/abs/2311.05609v1
- Date: Thu, 9 Nov 2023 18:59:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 14:02:41.895402
- Title: What Do I Hear? Generating Sounds for Visuals with ChatGPT
- Title(参考訳): 何を聞いたらいいのか?
ChatGPTによる視覚音の生成
- Authors: David Chuan-En Lin, Nikolas Martelaro
- Abstract要約: 本稿では,ビジュアルメディアのための現実的なサウンドスケープを生成するワークフローを提案する。
我々のアプローチは、すぐには見えないが、説得力があり没入的な聴覚環境を構築するのに不可欠である音を提案することまで拡張する。
- 参考スコア(独自算出の注目度): 5.239589676872304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This short paper introduces a workflow for generating realistic soundscapes
for visual media. In contrast to prior work, which primarily focus on matching
sounds for on-screen visuals, our approach extends to suggesting sounds that
may not be immediately visible but are essential to crafting a convincing and
immersive auditory environment. Our key insight is leveraging the reasoning
capabilities of language models, such as ChatGPT. In this paper, we describe
our workflow, which includes creating a scene context, brainstorming sounds,
and generating the sounds.
- Abstract(参考訳): 本稿では,ビジュアルメディアのためのリアルなサウンドスケープを生成するワークフローを紹介する。
画面上の視覚にマッチする音を主に重視する先行研究とは対照的に,本手法は,すぐには見えないが,説得力と没入性を備えた聴覚環境を構築する上で必須な音の提案に拡張する。
私たちの重要な洞察は、ChatGPTのような言語モデルの推論能力を活用することです。
本稿では,シーンコンテキストの作成,ブレインストーミング音の生成,音の生成などを行うワークフローについて述べる。
関連論文リスト
- Language-Guided Joint Audio-Visual Editing via One-Shot Adaptation [56.92841782969847]
言語誘導型共同視覚編集という新しいタスクを導入する。
この課題は、音声と映像のペアが与えられたとき、言語指導に基づいて与えられた音質イベントを編集することにより、新たな音声・視覚コンテンツを生成することである。
共同音声・視覚編集のための拡散型フレームワークを提案し,2つの重要なアイデアを紹介した。
論文 参考訳(メタデータ) (2024-10-09T22:02:30Z) - Action2Sound: Ambient-Aware Generation of Action Sounds from Egocentric Videos [87.32349247938136]
既存のアプローチでは、トレーニング中にビデオとオーディオの完全な対応を暗黙的に仮定する。
環境に配慮した新しいオーディオ生成モデルAV-LDMを提案する。
我々のアプローチは、観察された視覚コンテンツに忠実にビデオ・オーディオ生成を集中させる最初の方法である。
論文 参考訳(メタデータ) (2024-06-13T16:10:19Z) - Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。
音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T05:11:39Z) - Sound to Visual Scene Generation by Audio-to-Visual Latent Alignment [22.912401512161132]
我々は、各モデルコンポーネントの学習手順をスケジューリングして、オーディオ・視覚的モダリティを関連付けるモデルの設計を行う。
入力音声を視覚的特徴に変換し,事前学習した生成器を用いて画像を生成する。
VEGAS と VGGSound のデータセットは,従来の手法よりもかなりよい結果が得られる。
論文 参考訳(メタデータ) (2023-03-30T16:01:50Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Binaural SoundNet: Predicting Semantics, Depth and Motion with Binaural
Sounds [118.54908665440826]
人間は視覚的および/または聴覚的手がかりを用いて、オブジェクトを頑健に認識し、ローカライズすることができる。
この研究は、純粋に音に基づくシーン理解のためのアプローチを開発する。
視覚的および音声的手がかりの共存は、監督伝達に活用される。
論文 参考訳(メタデータ) (2021-09-06T22:24:00Z) - Learning Audio-Visual Dereverberation [87.52880019747435]
環境中の表面や物体を反射する音声からの残響は、人間の知覚の質を低下させるだけでなく、自動音声認識の精度にも深刻な影響を及ぼす。
我々の考えは、音声・視覚的観察から音声を除去することである。
そこで我々は,観測音と映像シーンの両方に基づいて残響を除去することを学ぶエンドツーエンドアプローチである,視覚インフォームド・デバーベレーション・オブ・オーディオ(VIDA)を紹介した。
論文 参考訳(メタデータ) (2021-06-14T20:01:24Z) - WASE: Learning When to Attend for Speaker Extraction in Cocktail Party
Environments [21.4128321045702]
話者抽出問題では,対象話者からの付加情報が話者の追跡・抽出に寄与することが判明した。
発声のキューにインスパイアされ, 発声のキューを明示的にモデル化し, 話者抽出作業の有効性を検証した。
タスクの観点から、我々のオンセット/オフセットモデルでは、話者抽出と話者依存音声活動検出の相補的な組み合わせである複合タスクを完成させる。
論文 参考訳(メタデータ) (2021-06-13T14:56:05Z) - AudioViewer: Learning to Visualize Sound [12.71759722609666]
聴覚障害者のための聴覚知覚を創造し,聴覚障害者の学習におけるフィードバックの促進を図る。
音声から映像への変換は,共用構造を持つ共用ラテント空間に圧縮することで行う。
論文 参考訳(メタデータ) (2020-12-22T21:52:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。