Fugu-MT 論文翻訳(概要): Audio Latent Space Cartography

関連論文リスト

SpatialV2A: Visual-Guided High-fidelity Spatial Audio Generation [15.901895888187711]
BinauralVGSoundは、空間的に認識されたビデオ・オーディオ生成をサポートするために設計された、最初の大規模ビデオ・バイオーラルオーディオデータセットである。このフレームワークには視覚誘導型音響空間化モジュールが組み込まれており、生成したオーディオが現実的な空間特性と層状空間深さを示すことを保証する。
論文参考訳（メタデータ） (2026-01-21T14:14:37Z)
ViSAudio: End-to-End Video-Driven Binaural Spatial Audio Generation [55.76423101183408]
ViSAudioは、条件付きフローマッチングとデュアルブランチオーディオ生成アーキテクチャを利用するエンドツーエンドフレームワークである。空間浸漬による高品質なオーディオを生成し、視点の変化、音源の動き、様々な音響環境に適応する。
論文参考訳（メタデータ） (2025-12-02T18:56:12Z)
Learning Interpretable Features in Audio Latent Spaces via Sparse Autoencoders [4.757470067755357]
我々は、音声オートエンコーダのラテントでSAEを訓練し、SAE特徴から線形マッピングを学習し、音響特性を識別する。これにより、AI音楽生成プロセスの制御可能な操作と分析が可能になる。
論文参考訳（メタデータ） (2025-10-27T19:35:39Z)
Sat2Sound: A Unified Framework for Zero-Shot Soundscape Mapping [7.291750095728984]
本研究では,地球上の任意の場所における音の分布を予測するためのフレームワークであるSat2Soundを紹介する。我々のアプローチは、音声、音声キャプション、衛星画像、衛星画像キャプションのコントラスト学習を取り入れている。本稿では,没入型音響体験を実現する位置ベースサウンドスケープ合成法を提案する。
論文参考訳（メタデータ） (2025-05-19T23:36:04Z)
ImmerseDiffusion: A Generative Spatial Audio Latent Diffusion Model [2.2927722373373247]
ImmerseDiffusionは音の空間的・時間的・環境的条件を条件とした3次元没入型音像を生成する。
論文参考訳（メタデータ） (2024-10-19T02:28:53Z)
Both Ears Wide Open: Towards Language-Driven Spatial Audio Generation [32.24603883810094]
ステレオオーディオを空間的コンテキストで制御することは、高いデータコストと不安定な生成モデルのために依然として困難である。まず, 大規模・シミュレーションベース・GPT支援型データセットBEWO-1Mを構築し, 移動・複数音源を含む豊富な音環境と記述を行った。空間誘導を利用して,テキストや画像から没入型かつ制御可能な空間オーディオを生成する。
論文参考訳（メタデータ） (2024-10-14T16:18:29Z)
PSM: Learning Probabilistic Embeddings for Multi-scale Zero-Shot Soundscape Mapping [7.076417856575795]
サウンドスケープは、ある場所で知覚される音響環境によって定義される。本研究では,地球上の音環境をマッピングする枠組みを提案する。我々は、マルチスケールの衛星画像で位置を表現し、この画像、音声、テキストの合同表現を学習する。
論文参考訳（メタデータ） (2024-08-13T17:37:40Z)
AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene Synthesis [61.07542274267568]
我々は,マルチモーダル学習のための,現実の映像シーン合成という新たな課題と,その一級のNeRFベースのアプローチについて検討する。音声伝搬の事前知識をNeRFに統合する音響認識型音声生成モジュールを提案する。本稿では,音源に対する視野方向を表す座標変換モジュールを提案する。
論文参考訳（メタデータ） (2023-02-04T04:17:19Z)
Novel-View Acoustic Synthesis [140.1107768313269]
本稿では,NVASタスクについて紹介する。音源の視点で観測された視界と音から見えない対象の視点からそのシーンの音を合成できるか? 空間内の任意の点の音を合成することを学ぶ視覚誘導音響合成(ViGAS)ネットワークを提案する。
論文参考訳（メタデータ） (2023-01-20T18:49:58Z)
Sound-Guided Semantic Video Generation [15.225598817462478]
本稿では,マルチモーダル(音像文)埋め込み空間を活用することで,リアルな映像を生成するフレームワークを提案する。音はシーンの時間的文脈を提供するので、我々のフレームワークは音と意味的に整合したビデオを生成することを学習する。
論文参考訳（メタデータ） (2022-04-20T07:33:10Z)
Learning Neural Acoustic Fields [110.22937202449025]
音が物理的場面でどのように伝搬するかを暗黙的に表現するニューラル・アコースティック・フィールズ(NAF)を導入する。シーン内の音響伝搬を線形時間不変系としてモデル化することにより、NAFは全てのエミッタとリスナーの位置ペアを連続的にマッピングすることを学ぶ。 NAFの連続的な性質により、任意の場所でリスナーの空間音響を描画することができ、新しい場所での音の伝搬を予測できることを実証する。
論文参考訳（メタデータ） (2022-04-04T17:59:37Z)
Geometry-Aware Multi-Task Learning for Binaural Audio Generation from Video [94.42811508809994]
本研究では,映像中の視覚情報に基づいてモノラル(単一チャンネル)音声を音声に変換する音声空間化手法を提案する。既存の手法では,映像フレームから直接抽出した視覚的特徴を活用するが,この手法は視覚ストリームに存在する幾何学的手がかりを明示的に切り離し,学習過程を導出する。
論文参考訳（メタデータ） (2021-11-21T19:26:45Z)
Visually Informed Binaural Audio Generation without Binaural Audios [130.80178993441413]
記録のない効果的なパイプラインであるPseudoBinauralを提案します。本研究では球面高調波分解と頭部関連インパルス応答(hrir)を用いて空間位置と受信音声の関係を同定する。当社の記録のないパイプラインは、データセット間の評価において大きな安定性を示し、主観的な好みで匹敵するパフォーマンスを実現します。
論文参考訳（メタデータ） (2021-04-13T13:07:33Z)
Data Fusion for Audiovisual Speaker Localization: Extending Dynamic Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文参考訳（メタデータ） (2021-02-23T09:59:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

論文の概要: Audio Latent Space Cartography

関連論文リスト