論文の概要: Multi-modal and Multi-scale Spatial Environment Understanding for Immersive Visual Text-to-Speech
- arxiv url: http://arxiv.org/abs/2412.11409v1
- Date: Mon, 16 Dec 2024 03:25:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:59:28.106193
- Title: Multi-modal and Multi-scale Spatial Environment Understanding for Immersive Visual Text-to-Speech
- Title(参考訳): 没入型視覚テキスト音声のためのマルチモーダル・マルチスケール空間環境理解
- Authors: Rui Liu, Shuwei He, Yifan Hu, Haizhou Li,
- Abstract要約: M2SE-VTTSは、環境イメージを音声コンテンツに対する残響音声の合成のプロンプトとすることを目的としている。
没入型VTTSを実現するためのマルチモーダル・マルチスケール空間環境理解手法を提案する。
本モデルは,環境音声生成における先進的ベースラインよりも優れる。
- 参考スコア(独自算出の注目度): 39.74416731035842
- License:
- Abstract: Visual Text-to-Speech (VTTS) aims to take the environmental image as the prompt to synthesize the reverberant speech for the spoken content. The challenge of this task lies in understanding the spatial environment from the image. Many attempts have been made to extract global spatial visual information from the RGB space of an spatial image. However, local and depth image information are crucial for understanding the spatial environment, which previous works have ignored. To address the issues, we propose a novel multi-modal and multi-scale spatial environment understanding scheme to achieve immersive VTTS, termed M2SE-VTTS. The multi-modal aims to take both the RGB and Depth spaces of the spatial image to learn more comprehensive spatial information, and the multi-scale seeks to model the local and global spatial knowledge simultaneously. Specifically, we first split the RGB and Depth images into patches and adopt the Gemini-generated environment captions to guide the local spatial understanding. After that, the multi-modal and multi-scale features are integrated by the local-aware global spatial understanding. In this way, M2SE-VTTS effectively models the interactions between local and global spatial contexts in the multi-modal spatial environment. Objective and subjective evaluations suggest that our model outperforms the advanced baselines in environmental speech generation. The code and audio samples are available at: https://github.com/AI-S2-Lab/M2SE-VTTS.
- Abstract(参考訳): VTTS(Visual Text-to-Speech)は、環境イメージを音声コンテンツに対する残響音声の合成のプロンプトとすることを目的としている。
この課題は、画像から空間環境を理解することである。
空間画像のRGB空間からグローバル空間視覚情報を抽出するための多くの試みがなされている。
しかし,従来の研究が無視した空間環境を理解するためには,局所的・深度的な画像情報が不可欠である。
そこで本研究では,M2SE-VTTSと呼ばれる没入型VTTSを実現するための,マルチモーダル・マルチスケール空間環境理解手法を提案する。
マルチモーダルは空間画像のRGB空間と深度空間の両方を用いてより包括的空間情報を学習することを目的としており、マルチスケールは局所的空間知識とグローバルな空間知識を同時にモデル化することを目指している。
具体的には、まずRGBとDepthの画像をパッチに分割し、Gemini生成環境キャプションを用いて局所的な空間的理解を導く。
その後、マルチモーダル・マルチスケールの機能は、局所的なグローバル空間理解によって統合される。
このようにして、M2SE-VTTSは、マルチモーダル空間環境における局所的および大域的空間的コンテキスト間の相互作用を効果的にモデル化する。
客観的・主観的な評価は,環境音声生成において,我々のモデルが高度なベースラインを上回ることを示唆している。
コードとオーディオサンプルは、https://github.com/AI-S2-Lab/M2SE-VTTSで入手できる。
関連論文リスト
- LLaVA-ST: A Multimodal Large Language Model for Fine-Grained Spatial-Temporal Understanding [29.42797944919497]
LLaVA-STは空間的・時間的マルチモーダル理解のためのMLLMである。
LLaVA-STでは,座標の特別なトークンを視覚空間に埋め込んだLanguage-Aligned Positional Embeddingを提案する。
また、時間分解能と空間分解能の特徴圧縮を2つの異なるポイント・ツー・リージョンのアテンション処理ストリームに分離する空間-テンポラル・パッカーを設計する。
論文 参考訳(メタデータ) (2025-01-14T17:58:12Z) - Agent Journey Beyond RGB: Unveiling Hybrid Semantic-Spatial Environmental Representations for Vision-and-Language Navigation [15.302043040651368]
ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)における自我中心エージェントにとって、自然言語命令に基づく未知環境のナビゲーションは依然として困難である。
本稿では,ナビゲーションを容易にする汎用セマンティック理解と空間認識アーキテクチャを提案する。
SUSAハイブリッドセマンティック空間表現はナビゲーション性能を効果的に向上し、3つのVLNベンチマーク(REVERIE, R2R, SOON)にまたがる最先端性能を新たに設定する。
論文 参考訳(メタデータ) (2024-12-09T13:10:28Z) - Multi-Source Spatial Knowledge Understanding for Immersive Visual Text-to-Speech [3.391256280235937]
VTTS (Visual Text-to-Speech) は,環境イメージを音声コンテンツに対する残響音声の合成に役立てることを目的としている。
本稿では,MS2KU-VTTSと呼ばれる没入型VTTSのための空間知識理解手法を提案する。
論文 参考訳(メタデータ) (2024-10-18T00:46:18Z) - GeoVLN: Learning Geometry-Enhanced Visual Representation with Slot
Attention for Vision-and-Language Navigation [52.65506307440127]
我々は,ロバストなビジュアル・アンド・ランゲージナビゲーションのためのスロットアテンションに基づく幾何学的視覚表現を学習するGeoVLNを提案する。
我々はV&L BERTを用いて言語情報と視覚情報の両方を組み込んだクロスモーダル表現を学習する。
論文 参考訳(メタデータ) (2023-05-26T17:15:22Z) - CLEAR: Improving Vision-Language Navigation with Cross-Lingual,
Environment-Agnostic Representations [98.30038910061894]
VLN(Vision-and-Language Navigation)タスクでは、エージェントが言語命令に基づいて環境をナビゲートする必要がある。
CLEAR: 言語横断表現と環境非依存表現を提案する。
我々の言語と視覚表現は、Room-to-Room and Cooperative Vision-and-Dialogue Navigationタスクにうまく転送できる。
論文 参考訳(メタデータ) (2022-07-05T17:38:59Z) - SILG: The Multi-environment Symbolic Interactive Language Grounding
Benchmark [62.34200575624785]
マルチ環境対話型言語グラウンドベンチマーク(SILG)を提案する。
SILGは、新しいダイナミクス、エンティティ、部分的に観察された世界(RTFM、Messenger、NetHack)への一般化を必要とするグリッドワールド環境で構成されている。
SILGを用いた自己中心型局所的畳み込み,再帰状態追跡,エンティティ中心の注意,事前訓練によるLMなどの最近の進歩を評価した。
論文 参考訳(メタデータ) (2021-10-20T17:02:06Z) - Low Light Image Enhancement via Global and Local Context Modeling [164.85287246243956]
低照度画像強調のためのコンテキスト認識ディープネットワークを導入。
まず、全空間領域上の補完的な手がかりを見つけるために空間相関をモデル化するグローバルコンテキストモジュールを特徴とする。
第二に、比較的大きな受容フィールドで局所的なコンテキストをキャプチャする密な残留ブロックを導入する。
論文 参考訳(メタデータ) (2021-01-04T09:40:54Z) - NeuralFusion: Online Depth Fusion in Latent Space [77.59420353185355]
潜在特徴空間における深度マップアグリゲーションを学習する新しいオンライン深度マップ融合手法を提案する。
提案手法は,高騒音レベルを処理し,特に測光ステレオベース深度マップに共通する粗悪なアウトレージに対処できる。
論文 参考訳(メタデータ) (2020-11-30T13:50:59Z) - A Multi-Level Approach to Waste Object Segmentation [10.20384144853726]
カラー画像とオプションの深度画像から廃棄物を局所化する問題に対処する。
本手法は,複数の空間的粒度レベルでの強度と深度情報を統合する。
我々は, この領域における今後の研究を促進するために, 新たなRGBD廃棄物分節MJU-Wasteを作成している。
論文 参考訳(メタデータ) (2020-07-08T16:49:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。