論文の概要: Multi-modal and Multi-scale Spatial Environment Understanding for Immersive Visual Text-to-Speech
- arxiv url: http://arxiv.org/abs/2412.11409v3
- Date: Wed, 15 Jan 2025 01:59:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-16 15:50:42.070701
- Title: Multi-modal and Multi-scale Spatial Environment Understanding for Immersive Visual Text-to-Speech
- Title(参考訳): 没入型視覚テキスト音声のためのマルチモーダル・マルチスケール空間環境理解
- Authors: Rui Liu, Shuwei He, Yifan Hu, Haizhou Li,
- Abstract要約: M2SE-VTTSは、環境イメージを音声コンテンツに対する残響音声の合成のプロンプトとすることを目的としている。
没入型VTTSを実現するためのマルチモーダル・マルチスケール空間環境理解手法を提案する。
本モデルは,環境音声生成における先進的ベースラインよりも優れる。
- 参考スコア(独自算出の注目度): 39.74416731035842
- License:
- Abstract: Visual Text-to-Speech (VTTS) aims to take the environmental image as the prompt to synthesize the reverberant speech for the spoken content. The challenge of this task lies in understanding the spatial environment from the image. Many attempts have been made to extract global spatial visual information from the RGB space of an spatial image. However, local and depth image information are crucial for understanding the spatial environment, which previous works have ignored. To address the issues, we propose a novel multi-modal and multi-scale spatial environment understanding scheme to achieve immersive VTTS, termed M2SE-VTTS. The multi-modal aims to take both the RGB and Depth spaces of the spatial image to learn more comprehensive spatial information, and the multi-scale seeks to model the local and global spatial knowledge simultaneously. Specifically, we first split the RGB and Depth images into patches and adopt the Gemini-generated environment captions to guide the local spatial understanding. After that, the multi-modal and multi-scale features are integrated by the local-aware global spatial understanding. In this way, M2SE-VTTS effectively models the interactions between local and global spatial contexts in the multi-modal spatial environment. Objective and subjective evaluations suggest that our model outperforms the advanced baselines in environmental speech generation. The code and audio samples are available at: https://github.com/AI-S2-Lab/M2SE-VTTS.
- Abstract(参考訳): VTTS(Visual Text-to-Speech)は、環境イメージを音声コンテンツに対する残響音声の合成のプロンプトとすることを目的としている。
この課題は、画像から空間環境を理解することである。
空間画像のRGB空間からグローバル空間視覚情報を抽出するための多くの試みがなされている。
しかし,従来の研究が無視した空間環境を理解するためには,局所的・深度的な画像情報が不可欠である。
そこで本研究では,M2SE-VTTSと呼ばれる没入型VTTSを実現するための,マルチモーダル・マルチスケール空間環境理解手法を提案する。
マルチモーダルは空間画像のRGB空間と深度空間の両方を用いてより包括的空間情報を学習することを目的としており、マルチスケールは局所的空間知識とグローバルな空間知識を同時にモデル化することを目指している。
具体的には、まずRGBとDepthの画像をパッチに分割し、Gemini生成環境キャプションを用いて局所的な空間的理解を導く。
その後、マルチモーダル・マルチスケールの機能は、局所的なグローバル空間理解によって統合される。
このようにして、M2SE-VTTSは、マルチモーダル空間環境における局所的および大域的空間的コンテキスト間の相互作用を効果的にモデル化する。
客観的・主観的な評価は,環境音声生成において,我々のモデルが高度なベースラインを上回ることを示唆している。
コードとオーディオサンプルは、https://github.com/AI-S2-Lab/M2SE-VTTSで入手できる。
関連論文リスト
- United Domain Cognition Network for Salient Object Detection in Optical Remote Sensing Images [21.76732661032257]
周波数領域と空間領域のグローバルローカル情報を共同で探索する新しい統一ドメイン認知ネットワーク(UDCNet)を提案する。
実験結果から提案したUDCNetが24種類の最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-11-11T04:12:27Z) - Multi-Source Spatial Knowledge Understanding for Immersive Visual Text-to-Speech [39.206005299985605]
VTTS (Visual Text-to-Speech) は、空間環境画像を音声コンテンツに対する残響音声の合成のプロンプトとして捉えることを目的としている。
これまでの研究は、深度、話者の位置、環境意味論といったマルチソース空間知識の可能性を見越して、地球環境モデリングのためのRGBモダリティに焦点を当てていた。
没入型VTTSのためのマルチソース空間知識理解手法をMS$2$KU-VTTSと呼ぶ。
論文 参考訳(メタデータ) (2024-10-18T00:46:18Z) - Semi-Supervised Semantic Depth Estimation using Symbiotic Transformer
and NearFarMix Augmentation [0.26107298043931193]
コンピュータービジョンでは、ロボット工学、自動運転車、拡張現実、仮想現実といった分野において、深さ推定が不可欠である。
セマンティクスを奥行きと統合することで、相互情報共有によるシーン理解が促進される。
限定的な局所受容場を持つ既存の畳み込みアプローチは、深さと意味論の間の共生ポテンシャルのフル活用を妨げる。
本稿では,意味情報の不足に対処するための,データセット不変な半教師付き戦略を提案する。
論文 参考訳(メタデータ) (2023-08-28T08:33:45Z) - GeoVLN: Learning Geometry-Enhanced Visual Representation with Slot
Attention for Vision-and-Language Navigation [52.65506307440127]
我々は,ロバストなビジュアル・アンド・ランゲージナビゲーションのためのスロットアテンションに基づく幾何学的視覚表現を学習するGeoVLNを提案する。
我々はV&L BERTを用いて言語情報と視覚情報の両方を組み込んだクロスモーダル表現を学習する。
論文 参考訳(メタデータ) (2023-05-26T17:15:22Z) - CLEAR: Improving Vision-Language Navigation with Cross-Lingual,
Environment-Agnostic Representations [98.30038910061894]
VLN(Vision-and-Language Navigation)タスクでは、エージェントが言語命令に基づいて環境をナビゲートする必要がある。
CLEAR: 言語横断表現と環境非依存表現を提案する。
我々の言語と視覚表現は、Room-to-Room and Cooperative Vision-and-Dialogue Navigationタスクにうまく転送できる。
論文 参考訳(メタデータ) (2022-07-05T17:38:59Z) - SILG: The Multi-environment Symbolic Interactive Language Grounding
Benchmark [62.34200575624785]
マルチ環境対話型言語グラウンドベンチマーク(SILG)を提案する。
SILGは、新しいダイナミクス、エンティティ、部分的に観察された世界(RTFM、Messenger、NetHack)への一般化を必要とするグリッドワールド環境で構成されている。
SILGを用いた自己中心型局所的畳み込み,再帰状態追跡,エンティティ中心の注意,事前訓練によるLMなどの最近の進歩を評価した。
論文 参考訳(メタデータ) (2021-10-20T17:02:06Z) - Low Light Image Enhancement via Global and Local Context Modeling [164.85287246243956]
低照度画像強調のためのコンテキスト認識ディープネットワークを導入。
まず、全空間領域上の補完的な手がかりを見つけるために空間相関をモデル化するグローバルコンテキストモジュールを特徴とする。
第二に、比較的大きな受容フィールドで局所的なコンテキストをキャプチャする密な残留ブロックを導入する。
論文 参考訳(メタデータ) (2021-01-04T09:40:54Z) - NeuralFusion: Online Depth Fusion in Latent Space [77.59420353185355]
潜在特徴空間における深度マップアグリゲーションを学習する新しいオンライン深度マップ融合手法を提案する。
提案手法は,高騒音レベルを処理し,特に測光ステレオベース深度マップに共通する粗悪なアウトレージに対処できる。
論文 参考訳(メタデータ) (2020-11-30T13:50:59Z) - A Multi-Level Approach to Waste Object Segmentation [10.20384144853726]
カラー画像とオプションの深度画像から廃棄物を局所化する問題に対処する。
本手法は,複数の空間的粒度レベルでの強度と深度情報を統合する。
我々は, この領域における今後の研究を促進するために, 新たなRGBD廃棄物分節MJU-Wasteを作成している。
論文 参考訳(メタデータ) (2020-07-08T16:49:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。