Fugu-MT 論文翻訳(概要): Multi-modal and Multi-scale Spatial Environment Understanding for Immersive Visual Text-to-Speech

論文の概要: Multi-modal and Multi-scale Spatial Environment Understanding for Immersive Visual Text-to-Speech

arxiv url: http://arxiv.org/abs/2412.11409v1
Date: Mon, 16 Dec 2024 03:25:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-17 15:50:00.181475
Title: Multi-modal and Multi-scale Spatial Environment Understanding for Immersive Visual Text-to-Speech
Title（参考訳）: 没入型視覚テキスト音声のためのマルチモーダル・マルチスケール空間環境理解
Authors: Rui Liu, Shuwei He, Yifan Hu, Haizhou Li,
Abstract要約: M2SE-VTTSは、環境イメージを音声コンテンツに対する残響音声の合成のプロンプトとすることを目的としている。没入型VTTSを実現するためのマルチモーダル・マルチスケール空間環境理解手法を提案する。本モデルは,環境音声生成における先進的ベースラインよりも優れる。
参考スコア（独自算出の注目度）: 39.74416731035842
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Visual Text-to-Speech (VTTS) aims to take the environmental image as the prompt to synthesize the reverberant speech for the spoken content. The challenge of this task lies in understanding the spatial environment from the image. Many attempts have been made to extract global spatial visual information from the RGB space of an spatial image. However, local and depth image information are crucial for understanding the spatial environment, which previous works have ignored. To address the issues, we propose a novel multi-modal and multi-scale spatial environment understanding scheme to achieve immersive VTTS, termed M2SE-VTTS. The multi-modal aims to take both the RGB and Depth spaces of the spatial image to learn more comprehensive spatial information, and the multi-scale seeks to model the local and global spatial knowledge simultaneously. Specifically, we first split the RGB and Depth images into patches and adopt the Gemini-generated environment captions to guide the local spatial understanding. After that, the multi-modal and multi-scale features are integrated by the local-aware global spatial understanding. In this way, M2SE-VTTS effectively models the interactions between local and global spatial contexts in the multi-modal spatial environment. Objective and subjective evaluations suggest that our model outperforms the advanced baselines in environmental speech generation. The code and audio samples are available at: https://github.com/AI-S2-Lab/M2SE-VTTS.
Abstract（参考訳）: VTTS(Visual Text-to-Speech)は、環境イメージを音声コンテンツに対する残響音声の合成のプロンプトとすることを目的としている。この課題は、画像から空間環境を理解することである。空間画像のRGB空間からグローバル空間視覚情報を抽出するための多くの試みがなされている。しかし,従来の研究が無視した空間環境を理解するためには,局所的・深度的な画像情報が不可欠である。そこで本研究では,M2SE-VTTSと呼ばれる没入型VTTSを実現するための,マルチモーダル・マルチスケール空間環境理解手法を提案する。マルチモーダルは空間画像のRGB空間と深度空間の両方を用いてより包括的空間情報を学習することを目的としており、マルチスケールは局所的空間知識とグローバルな空間知識を同時にモデル化することを目指している。具体的には、まずRGBとDepthの画像をパッチに分割し、Gemini生成環境キャプションを用いて局所的な空間的理解を導く。その後、マルチモーダル・マルチスケールの機能は、局所的なグローバル空間理解によって統合される。このようにして、M2SE-VTTSは、マルチモーダル空間環境における局所的および大域的空間的コンテキスト間の相互作用を効果的にモデル化する。客観的・主観的な評価は,環境音声生成において,我々のモデルが高度なベースラインを上回ることを示唆している。コードとオーディオサンプルは、https://github.com/AI-S2-Lab/M2SE-VTTSで入手できる。

関連論文リスト

Global Context-aware Representation Learning for Spatially Resolved Transcriptomics [19.594447007588606]
複数のスポット間のグローバルな関係を捉えるために、Simisity Telescopeモジュールを導入した新しいフレームワークであるSpotscapeを提案する。また,スライス内スポットとインタースライススポット間の距離を制御し,効率的なマルチスライス統合を実現するための類似性スケーリング戦略を提案する。
論文参考訳（メタデータ） (2025-05-28T13:47:50Z)
Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文参考訳（メタデータ） (2025-05-26T15:28:17Z)
EarthGPT-X: Enabling MLLMs to Flexibly and Comprehensively Understand Multi-Source Remote Sensing Imagery [15.581788175591097]
リモートセンシング画像に自然空間モデルを適用することは困難である。 EarthGPT-Xはズームインとズームアウトのインサイトを提供する。実験は、多粒度タスクにおける提案された地球GPT-Xの優位性を実証した。
論文参考訳（メタデータ） (2025-04-17T09:56:35Z)
LLaVA-ST: A Multimodal Large Language Model for Fine-Grained Spatial-Temporal Understanding [29.42797944919497]
LLaVA-STは空間的・時間的マルチモーダル理解のためのMLLMである。 LLaVA-STでは,座標の特別なトークンを視覚空間に埋め込んだLanguage-Aligned Positional Embeddingを提案する。また、時間分解能と空間分解能の特徴圧縮を2つの異なるポイント・ツー・リージョンのアテンション処理ストリームに分離する空間-テンポラル・パッカーを設計する。
論文参考訳（メタデータ） (2025-01-14T17:58:12Z)
Agent Journey Beyond RGB: Unveiling Hybrid Semantic-Spatial Environmental Representations for Vision-and-Language Navigation [15.302043040651368]
ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)における自我中心エージェントにとって、自然言語命令に基づく未知環境のナビゲーションは依然として困難である。本稿では,ナビゲーションを容易にする汎用セマンティック理解と空間認識アーキテクチャを提案する。 SUSAハイブリッドセマンティック空間表現はナビゲーション性能を効果的に向上し、3つのVLNベンチマーク(REVERIE, R2R, SOON)にまたがる最先端性能を新たに設定する。
論文参考訳（メタデータ） (2024-12-09T13:10:28Z)
Multi-Source Spatial Knowledge Understanding for Immersive Visual Text-to-Speech [39.206005299985605]
VTTS (Visual Text-to-Speech) は、空間環境画像を音声コンテンツに対する残響音声の合成のプロンプトとして捉えることを目的としている。これまでの研究は、深度、話者の位置、環境意味論といったマルチソース空間知識の可能性を見越して、地球環境モデリングのためのRGBモダリティに焦点を当てていた。没入型VTTSのためのマルチソース空間知識理解手法をMS$2$KU-VTTSと呼ぶ。
論文参考訳（メタデータ） (2024-10-18T00:46:18Z)
GeoVLN: Learning Geometry-Enhanced Visual Representation with Slot Attention for Vision-and-Language Navigation [52.65506307440127]
我々は,ロバストなビジュアル・アンド・ランゲージナビゲーションのためのスロットアテンションに基づく幾何学的視覚表現を学習するGeoVLNを提案する。我々はV&L BERTを用いて言語情報と視覚情報の両方を組み込んだクロスモーダル表現を学習する。
論文参考訳（メタデータ） (2023-05-26T17:15:22Z)
CLEAR: Improving Vision-Language Navigation with Cross-Lingual, Environment-Agnostic Representations [98.30038910061894]
VLN(Vision-and-Language Navigation)タスクでは、エージェントが言語命令に基づいて環境をナビゲートする必要がある。 CLEAR: 言語横断表現と環境非依存表現を提案する。我々の言語と視覚表現は、Room-to-Room and Cooperative Vision-and-Dialogue Navigationタスクにうまく転送できる。
論文参考訳（メタデータ） (2022-07-05T17:38:59Z)
SILG: The Multi-environment Symbolic Interactive Language Grounding Benchmark [62.34200575624785]
マルチ環境対話型言語グラウンドベンチマーク(SILG)を提案する。 SILGは、新しいダイナミクス、エンティティ、部分的に観察された世界(RTFM、Messenger、NetHack)への一般化を必要とするグリッドワールド環境で構成されている。 SILGを用いた自己中心型局所的畳み込み,再帰状態追跡,エンティティ中心の注意,事前訓練によるLMなどの最近の進歩を評価した。
論文参考訳（メタデータ） (2021-10-20T17:02:06Z)
Low Light Image Enhancement via Global and Local Context Modeling [164.85287246243956]
低照度画像強調のためのコンテキスト認識ディープネットワークを導入。まず、全空間領域上の補完的な手がかりを見つけるために空間相関をモデル化するグローバルコンテキストモジュールを特徴とする。第二に、比較的大きな受容フィールドで局所的なコンテキストをキャプチャする密な残留ブロックを導入する。
論文参考訳（メタデータ） (2021-01-04T09:40:54Z)
NeuralFusion: Online Depth Fusion in Latent Space [77.59420353185355]
潜在特徴空間における深度マップアグリゲーションを学習する新しいオンライン深度マップ融合手法を提案する。提案手法は,高騒音レベルを処理し,特に測光ステレオベース深度マップに共通する粗悪なアウトレージに対処できる。
論文参考訳（メタデータ） (2020-11-30T13:50:59Z)
A Multi-Level Approach to Waste Object Segmentation [10.20384144853726]
カラー画像とオプションの深度画像から廃棄物を局所化する問題に対処する。本手法は,複数の空間的粒度レベルでの強度と深度情報を統合する。我々は, この領域における今後の研究を促進するために, 新たなRGBD廃棄物分節MJU-Wasteを作成している。
論文参考訳（メタデータ） (2020-07-08T16:49:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。