論文の概要: Controllable Audio-Visual Viewpoint Generation from 360° Spatial Information
- arxiv url: http://arxiv.org/abs/2510.06060v1
- Date: Tue, 07 Oct 2025 15:53:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.329856
- Title: Controllable Audio-Visual Viewpoint Generation from 360° Spatial Information
- Title(参考訳): 360°空間情報による可制御型視覚視点生成
- Authors: Christian Marinoni, Riccardo Fosco Gramaccioni, Eleonora Grassucci, Danilo Comminiello,
- Abstract要約: 本稿では,制御可能な音声視覚生成のためのフレームワークを提案する。
完全360度空間から導出される強力な条件付き信号の集合を導入することで拡散モデルを提案する。
これらの制御を統合することで、より広範で目に見えない環境環境の影響を受けながら、空間的に認識された視点映像と音声を生成する。
- 参考スコア(独自算出の注目度): 14.545461355150223
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The generation of sounding videos has seen significant advancements with the advent of diffusion models. However, existing methods often lack the fine-grained control needed to generate viewpoint-specific content from larger, immersive 360-degree environments. This limitation restricts the creation of audio-visual experiences that are aware of off-camera events. To the best of our knowledge, this is the first work to introduce a framework for controllable audio-visual generation, addressing this unexplored gap. Specifically, we propose a diffusion model by introducing a set of powerful conditioning signals derived from the full 360-degree space: a panoramic saliency map to identify regions of interest, a bounding-box-aware signed distance map to define the target viewpoint, and a descriptive caption of the entire scene. By integrating these controls, our model generates spatially-aware viewpoint videos and audios that are coherently influenced by the broader, unseen environmental context, introducing a strong controllability that is essential for realistic and immersive audio-visual generation. We show audiovisual examples proving the effectiveness of our framework.
- Abstract(参考訳): 音響ビデオの生成は拡散モデルの出現とともに大きな進歩を遂げた。
しかし、既存の方法は、より大きな没入型360度環境から視点固有のコンテンツを生成するのに必要な細かい制御を欠いていることが多い。
この制限により、オフカメライベントを認識しているオーディオ視覚体験の作成が制限される。
私たちの知る限りでは、この未解決のギャップに対処して、制御可能なオーディオ視覚生成のためのフレームワークを導入するのは、これが初めてである。
具体的には、関心領域を識別するパノラマサリエンシマップ、対象視点を定義するための境界ボックス対応符号付き距離マップ、シーン全体の記述キャプションなど、360度空間から導出される強力な条件付き信号のセットを導入することで拡散モデルを提案する。
これらの制御を統合することで、より広範で目に見えない環境環境に影響を受け、現実的で没入的なオーディオ視覚生成に不可欠な強い制御性を導入し、空間的に認識された視点映像とオーディオを生成する。
本フレームワークの有効性を示す音響視覚例を示す。
関連論文リスト
- InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions [70.63690961790573]
リッチなマルチモーダル条件を持つエンドツーエンドの人間アニメーションは,近年顕著な進歩を遂げている。
既存のほとんどの手法は、単一の主題をアニメーションし、グローバルな方法で条件を注入するしかなかった。
本稿では,各アイデンティティの時間的フットプリントに対する条件の強い領域特異的な結合を強制する,新しい枠組みを提案する。
論文 参考訳(メタデータ) (2025-06-11T17:57:09Z) - SoundVista: Novel-View Ambient Sound Synthesis via Visual-Acoustic Binding [51.311553815466446]
本稿では,任意のシーンの環境音を新しい視点で生成するSoundVistaを紹介する。
SoundVistaは、わずかに分散したマイクからシーンの録音を事前に取得しているので、そのシーンの音を、目に見えないターゲット視点から合成することができる。
論文 参考訳(メタデータ) (2025-04-08T00:22:16Z) - Both Ears Wide Open: Towards Language-Driven Spatial Audio Generation [32.24603883810094]
ステレオオーディオを空間的コンテキストで制御することは、高いデータコストと不安定な生成モデルのために依然として困難である。
まず,大規模・シミュレーションベース・GPT支援型データセットBEWO-1Mの構築を行った。
空間誘導を利用してテキストから没入型かつ制御可能な空間音声を生成する。
論文 参考訳(メタデータ) (2024-10-14T16:18:29Z) - Video-to-Audio Generation with Hidden Alignment [27.11625918406991]
我々は、視覚エンコーダ、補助埋め込み、データ拡張技術に焦点をあてて、ビデオ・オーディオ生成パラダイムに関する洞察を提供する。
提案モデルでは,最先端のビデオ・オーディオ生成機能を示す。
論文 参考訳(メタデータ) (2024-07-10T08:40:39Z) - SEE-2-SOUND: Zero-Shot Spatial Environment-to-Spatial Sound [5.999777817331317]
SEE-2-SOUNDは,タスクを(1)視覚領域の識別,(2)これらの要素を3次元空間に配置すること,(3)モノオーディオを生成すること,(4)空間オーディオに統合すること,に分解するゼロショットアプローチである。
本フレームワークを用いて,インターネットから高画質ビデオ,画像,ダイナミック画像,および学習手法によって生成されたメディアに対して,空間音声を生成するための説得力のある結果を提示する。
論文 参考訳(メタデータ) (2024-06-06T22:55:01Z) - EchoScene: Indoor Scene Generation via Information Echo over Scene Graph Diffusion [77.0556470600979]
シーングラフ上に3次元屋内シーンを生成する対話型かつ制御可能な生成モデルであるEchoSceneを提案する。
既存の手法では、様々なノード数、複数のエッジの組み合わせ、マニピュレータによるノードエッジ操作によるシーングラフの処理に苦労している。
論文 参考訳(メタデータ) (2024-05-02T00:04:02Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - Weakly-Supervised Action Detection Guided by Audio Narration [50.4318060593995]
ナレーション管理から学習し,RGB,モーションフロー,環境音などのマルチモーダル特徴を利用するモデルを提案する。
実験の結果,ノイズの多い音声ナレーションは優れた行動検出モデルを学ぶのに十分であることがわかった。
論文 参考訳(メタデータ) (2022-05-12T06:33:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。