Fugu-MT 論文翻訳(概要): What Do I Hear? Generating Sounds for Visuals with ChatGPT

論文の概要: What Do I Hear? Generating Sounds for Visuals with ChatGPT

arxiv url: http://arxiv.org/abs/2311.05609v1
Date: Thu, 9 Nov 2023 18:59:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-10 14:02:41.895402
Title: What Do I Hear? Generating Sounds for Visuals with ChatGPT
Title（参考訳）: 何を聞いたらいいのか? ChatGPTによる視覚音の生成
Authors: David Chuan-En Lin, Nikolas Martelaro
Abstract要約: 本稿では,ビジュアルメディアのための現実的なサウンドスケープを生成するワークフローを提案する。我々のアプローチは、すぐには見えないが、説得力があり没入的な聴覚環境を構築するのに不可欠である音を提案することまで拡張する。
参考スコア（独自算出の注目度）: 5.239589676872304
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This short paper introduces a workflow for generating realistic soundscapes for visual media. In contrast to prior work, which primarily focus on matching sounds for on-screen visuals, our approach extends to suggesting sounds that may not be immediately visible but are essential to crafting a convincing and immersive auditory environment. Our key insight is leveraging the reasoning capabilities of language models, such as ChatGPT. In this paper, we describe our workflow, which includes creating a scene context, brainstorming sounds, and generating the sounds.
Abstract（参考訳）: 本稿では,ビジュアルメディアのためのリアルなサウンドスケープを生成するワークフローを紹介する。画面上の視覚にマッチする音を主に重視する先行研究とは対照的に,本手法は,すぐには見えないが,説得力と没入性を備えた聴覚環境を構築する上で必須な音の提案に拡張する。私たちの重要な洞察は、ChatGPTのような言語モデルの推論能力を活用することです。本稿では,シーンコンテキストの作成,ブレインストーミング音の生成,音の生成などを行うワークフローについて述べる。

関連論文リスト

ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing [52.33281620699459]
ThinkSoundは、Chain-of-Thought(CoT)推論を利用して、ビデオの段階的にインタラクティブなオーディオ生成と編集を可能にする新しいフレームワークである。提案手法は,3つの相補的な段階に分解する: セマンティック・コヒーレント, 正確なユーザインタラクションによる対話型オブジェクト中心の洗練, 自然言語命令でガイドされたターゲット編集。実験により、ThinkSoundはオーディオメトリクスとCoTメトリクスの両方で、ビデオからオーディオ生成における最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-06-26T16:32:06Z)
Visual-Aware Speech Recognition for Noisy Scenarios [3.444233215003251]
ノイズ源と視覚的手がかりを関連づけることで、転写を改善するモデルを提案する。唇の動きに依存し、話者の視認性を必要とする作品とは異なり、我々は環境からより広い視覚情報を利用する。ノイズの多いシナリオでは,既存の音声のみのモデルよりも大幅に改善されている。
論文参考訳（メタデータ） (2025-04-09T19:09:54Z)
Language-Guided Joint Audio-Visual Editing via One-Shot Adaptation [56.92841782969847]
言語誘導型共同視覚編集という新しいタスクを導入する。この課題は、音声と映像のペアが与えられたとき、言語指導に基づいて与えられた音質イベントを編集することにより、新たな音声・視覚コンテンツを生成することである。共同音声・視覚編集のための拡散型フレームワークを提案し,2つの重要なアイデアを紹介した。
論文参考訳（メタデータ） (2024-10-09T22:02:30Z)
Action2Sound: Ambient-Aware Generation of Action Sounds from Egocentric Videos [87.32349247938136]
既存のアプローチでは、トレーニング中にビデオとオーディオの完全な対応を暗黙的に仮定する。環境に配慮した新しいオーディオ生成モデルAV-LDMを提案する。我々のアプローチは、観察された視覚コンテンツに忠実にビデオ・オーディオ生成を集中させる最初の方法である。
論文参考訳（メタデータ） (2024-06-13T16:10:19Z)
Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文参考訳（メタデータ） (2023-06-21T05:11:39Z)
Sound to Visual Scene Generation by Audio-to-Visual Latent Alignment [22.912401512161132]
我々は、各モデルコンポーネントの学習手順をスケジューリングして、オーディオ・視覚的モダリティを関連付けるモデルの設計を行う。入力音声を視覚的特徴に変換し,事前学習した生成器を用いて画像を生成する。 VEGAS と VGGSound のデータセットは,従来の手法よりもかなりよい結果が得られる。
論文参考訳（メタデータ） (2023-03-30T16:01:50Z)
Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文参考訳（メタデータ） (2022-03-31T17:57:10Z)
Binaural SoundNet: Predicting Semantics, Depth and Motion with Binaural Sounds [118.54908665440826]
人間は視覚的および/または聴覚的手がかりを用いて、オブジェクトを頑健に認識し、ローカライズすることができる。この研究は、純粋に音に基づくシーン理解のためのアプローチを開発する。視覚的および音声的手がかりの共存は、監督伝達に活用される。
論文参考訳（メタデータ） (2021-09-06T22:24:00Z)
Learning Audio-Visual Dereverberation [87.52880019747435]
環境中の表面や物体を反射する音声からの残響は、人間の知覚の質を低下させるだけでなく、自動音声認識の精度にも深刻な影響を及ぼす。我々の考えは、音声・視覚的観察から音声を除去することである。そこで我々は,観測音と映像シーンの両方に基づいて残響を除去することを学ぶエンドツーエンドアプローチである,視覚インフォームド・デバーベレーション・オブ・オーディオ(VIDA)を紹介した。
論文参考訳（メタデータ） (2021-06-14T20:01:24Z)
WASE: Learning When to Attend for Speaker Extraction in Cocktail Party Environments [21.4128321045702]
話者抽出問題では,対象話者からの付加情報が話者の追跡・抽出に寄与することが判明した。発声のキューにインスパイアされ, 発声のキューを明示的にモデル化し, 話者抽出作業の有効性を検証した。タスクの観点から、我々のオンセット/オフセットモデルでは、話者抽出と話者依存音声活動検出の相補的な組み合わせである複合タスクを完成させる。
論文参考訳（メタデータ） (2021-06-13T14:56:05Z)
AudioViewer: Learning to Visualize Sound [12.71759722609666]
聴覚障害者のための聴覚知覚を創造し,聴覚障害者の学習におけるフィードバックの促進を図る。音声から映像への変換は,共用構造を持つ共用ラテント空間に圧縮することで行う。
論文参考訳（メタデータ） (2020-12-22T21:52:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。