論文の概要: Multi-Source Spatial Knowledge Understanding for Immersive Visual Text-to-Speech
- arxiv url: http://arxiv.org/abs/2410.14101v1
- Date: Fri, 18 Oct 2024 00:46:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:24:13.366301
- Title: Multi-Source Spatial Knowledge Understanding for Immersive Visual Text-to-Speech
- Title(参考訳): 没入型視覚テキスト音声のためのマルチソース空間知識理解
- Authors: Shuwei He, Rui Liu, Haizhou Li,
- Abstract要約: VTTS (Visual Text-to-Speech) は、空間環境画像を音声コンテンツに対する残響音声の合成のプロンプトとして捉えることを目的としている。
これまでの研究は、深度、話者の位置、環境意味論といったマルチソース空間知識の可能性を見越して、地球環境モデリングのためのRGBモダリティに焦点を当てていた。
没入型VTTSのためのマルチソース空間知識理解手法をMS$2$KU-VTTSと呼ぶ。
- 参考スコア(独自算出の注目度): 39.206005299985605
- License:
- Abstract: Visual Text-to-Speech (VTTS) aims to take the spatial environmental image as the prompt to synthesize the reverberation speech for the spoken content. Previous research focused on the RGB modality for global environmental modeling, overlooking the potential of multi-source spatial knowledge like depth, speaker position, and environmental semantics. To address the issues, we propose a novel multi-source spatial knowledge understanding scheme for immersive VTTS, termed MS$^2$KU-VTTS. Specifically, we first prioritize RGB image as the dominant source and consider depth image, speaker position knowledge from object detection, and semantic captions from image understanding LLM as supplementary sources. Afterwards, we propose a serial interaction mechanism to deeply engage with both dominant and supplementary sources. The resulting multi-source knowledge is dynamically integrated based on their contributions.This enriched interaction and integration of multi-source spatial knowledge guides the speech generation model, enhancing the immersive spatial speech experience.Experimental results demonstrate that the MS$^2$KU-VTTS surpasses existing baselines in generating immersive speech. Demos and code are available at: https://github.com/MS2KU-VTTS/MS2KU-VTTS.
- Abstract(参考訳): VTTS (Visual Text-to-Speech) は、空間環境画像を音声コンテンツに対する残響音声の合成のプロンプトとして捉えることを目的としている。
これまでの研究は、深度、話者の位置、環境意味論といったマルチソース空間知識の可能性を見越して、地球環境モデリングのためのRGBモダリティに焦点を当てていた。
そこで本稿では,MS$2$KU-VTTSと呼ばれる没入型VTTSの空間知識理解手法を提案する。
具体的には、まずRGB画像を優先し、深度画像、物体検出からの話者位置知識、画像理解LLMからのセマンティックキャプションを補助源として検討する。
その後、本研究では、支配的および補足的ソースの両方に深く関与するシリアル相互作用機構を提案する。
この多元的空間知識の豊富な相互作用と統合により、音声生成モデルが導出され、没入型空間音声体験が向上し、MS$2$KU-VTTSが既存のベースラインを超えていることを示す実験結果が得られた。
デモとコードは、https://github.com/MS2KU-VTTS/MS2KU-VTTSで入手できる。
関連論文リスト
- Multimodal 3D Fusion and In-Situ Learning for Spatially Aware AI [10.335943413484815]
拡張現実における仮想世界と物理世界のシームレスな統合は、物理的な環境を意味的に「理解する」システムから恩恵を受ける。
本稿では,意味的知識と言語的知識を幾何学的表現と一体化する多モード3Dオブジェクト表現を提案する。
提案システムの有用性を,Magic Leap 2上の2つの実世界のARアプリケーションを用いて実証する:a) 自然言語を用いた物理環境における空間探索,b) 時間とともにオブジェクトの変化を追跡するインテリジェントなインベントリシステム。
論文 参考訳(メタデータ) (2024-10-06T23:25:21Z) - SSPA: Split-and-Synthesize Prompting with Gated Alignments for Multi-Label Image Recognition [71.90536979421093]
本稿では,視覚言語モデル (VLM) の可能性を増幅するために, Gated Alignments (SSPA) フレームワークを用いた分割合成プロンプトを提案する。
我々は、LLMから固有の知識を関連付けるために、文脈内学習アプローチを開発する。
次に,SSP(Split-and-Synthesize Prompting)戦略を提案する。
論文 参考訳(メタデータ) (2024-07-30T15:58:25Z) - Multi-source Semantic Graph-based Multimodal Sarcasm Explanation
Generation [53.97962603641629]
本稿では,mulTi-source sEmantic grAph-based Multimodal sarcasm explanation scheme, TEAMを提案する。
TEAMは、入力画像から従来のグローバルな視覚的特徴の代わりに、オブジェクトレベルのセマンティックメタデータを抽出する。
TEAMはマルチソース意味関係を包括的に特徴付けるマルチソース意味グラフを導入している。
論文 参考訳(メタデータ) (2023-06-29T03:26:10Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - GeoVLN: Learning Geometry-Enhanced Visual Representation with Slot
Attention for Vision-and-Language Navigation [52.65506307440127]
我々は,ロバストなビジュアル・アンド・ランゲージナビゲーションのためのスロットアテンションに基づく幾何学的視覚表現を学習するGeoVLNを提案する。
我々はV&L BERTを用いて言語情報と視覚情報の両方を組み込んだクロスモーダル表現を学習する。
論文 参考訳(メタデータ) (2023-05-26T17:15:22Z) - CLEAR: Improving Vision-Language Navigation with Cross-Lingual,
Environment-Agnostic Representations [98.30038910061894]
VLN(Vision-and-Language Navigation)タスクでは、エージェントが言語命令に基づいて環境をナビゲートする必要がある。
CLEAR: 言語横断表現と環境非依存表現を提案する。
我々の言語と視覚表現は、Room-to-Room and Cooperative Vision-and-Dialogue Navigationタスクにうまく転送できる。
論文 参考訳(メタデータ) (2022-07-05T17:38:59Z) - Self-Supervised Image-to-Text and Text-to-Image Synthesis [23.587581181330123]
クロスモーダルな埋め込み空間を学習するための,新たな自己教師型深層学習手法を提案する。
そこで本研究では,まず,StackGANベースのオートエンコーダモデルを用いて画像の高密度ベクトル表現と,LSTMベースのテキストオートエンコーダを用いた文レベルでの高密度ベクトル表現を得る。
論文 参考訳(メタデータ) (2021-12-09T13:54:56Z) - Multimodal Incremental Transformer with Visual Grounding for Visual
Dialogue Generation [25.57530524167637]
視覚的対話は、視覚環境を理解することに基づいて、一連の一貫性のある質問に答える必要がある。
ビジュアルグラウンドティングは、テキストエンティティによってガイドされたイメージ内の関連オブジェクトを明示的に特定することを目的としている。
マルチモーダルインクリメンタルトランスフォーマーは、対話の順序に応じてステップごとに、多ターン対話履歴と視覚シーンのステップとをエンコードし、コンテキスト的かつ視覚的に一貫性のある応答を生成する。
論文 参考訳(メタデータ) (2021-09-17T11:39:29Z) - VisualHints: A Visual-Lingual Environment for Multimodal Reinforcement
Learning [14.553086325168803]
テキストベースのインタラクションと視覚的ヒント(環境から得られる)を含むマルチモーダル強化学習(RL)のための新しい環境であるVisualHintsを提案する。
環境全体に散在する視覚的手がかりを付加したTextWorld調理環境の拡張について紹介する。
目標は、RLエージェントがテキストと視覚の両方を使って自然言語のアクションコマンドを予測して、食事の調理の最終タスクを解決することである。
論文 参考訳(メタデータ) (2020-10-26T18:51:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。