論文の概要: UniBriVL: Robust Universal Representation and Generation of Audio Driven
Diffusion Models
- arxiv url: http://arxiv.org/abs/2307.15898v1
- Date: Sat, 29 Jul 2023 05:55:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 18:56:36.133629
- Title: UniBriVL: Robust Universal Representation and Generation of Audio Driven
Diffusion Models
- Title(参考訳): UniBriVL:ロバストな普遍表現と音声駆動拡散モデルの生成
- Authors: Sen Fang, Bowen Gao, Yangjian Wu, Jingwen Cai, Teik Toe Teoh
- Abstract要約: 我々はUniBriVLと呼ばれる新しい普遍言語表現学習法を提案する。
Universal BriVLは、音声、画像、テキストを共有空間に埋め込み、様々なマルチモーダルアプリケーションの実現を可能にする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large models have been recognized for their advantages in various
performance and downstream tasks. The development of these models is crucial
towards achieving general artificial intelligence in the future. In this paper,
we propose a novel universal language representation learning method called
UniBriVL, which is based on Bridging-Vision-and-Language (BriVL). Universal
BriVL embeds audio, image, and text into a shared space, enabling the
realization of various multimodal applications. Our approach addresses major
challenges in robust language (both text and audio) representation learning and
effectively captures the correlation between audio and image. Additionally, we
demonstrate the qualitative evaluation of the generated images from UniBriVL,
which serves to highlight the potential of our approach in creating images from
audio. Overall, our experimental results demonstrate the efficacy of UniBriVL
in downstream tasks and its ability to choose appropriate images from audio.
The proposed approach has the potential for various applications such as speech
recognition, music signal processing, and captioning systems.
- Abstract(参考訳): マルチモーダルな大規模モデルは、様々な性能および下流タスクにおいてその利点が認められている。
これらのモデルの開発は、将来的な人工知能の実現に不可欠である。
本稿では,Briging-Vision-and-Language(BriVL)に基づくUniBriVLという新しいユニバーサル言語表現学習手法を提案する。
Universal BriVLは、音声、画像、テキストを共有空間に埋め込み、様々なマルチモーダルアプリケーションの実現を可能にする。
本手法は,頑健な言語(テキストと音声の両方)表現学習における大きな課題に対処し,音声と画像の相関を効果的に捉える。
さらに、unibrivlから生成された画像の質的評価を実証し、音声から画像を作成する際の我々のアプローチの可能性を強調する。
実験の結果,下流作業におけるUniBriVLの有効性と,音声から適切な画像を選択する能力が示された。
提案手法は,音声認識,音楽信号処理,キャプションシステムなど,様々な応用の可能性を秘めている。
関連論文リスト
- Bridging the Gap between Text, Audio, Image, and Any Sequence: A Novel Approach using Gloss-based Annotation [5.528860524494717]
本稿では,光沢に基づくアノテーションを利用してマルチモーダル理解を簡素化する,BGTAIと呼ばれる革新的な手法を提案する。
テキストと音声を、複雑な意味的ニュアンスを省略するグロス表記として表現することで、画像との整合性が向上する可能性がある。
論文 参考訳(メタデータ) (2024-10-04T04:59:50Z) - VHASR: A Multimodal Speech Recognition System With Vision Hotwords [74.94430247036945]
VHASRは、視覚をホットワードとして使用し、モデルの音声認識能力を強化するマルチモーダル音声認識システムである。
VHASRは、画像のキー情報を効果的に利用して、モデルの音声認識能力を高めることができる。
論文 参考訳(メタデータ) (2024-10-01T16:06:02Z) - Robust Audiovisual Speech Recognition Models with Mixture-of-Experts [67.75334989582709]
EVAを導入し、オーディオVisual ASRのミックス・オブ・エクササイズを利用して、Wildのビデオに対してロバストな音声認識を行う。
まず、視覚情報を視覚トークンシーケンスにエンコードし、それらを軽量な投影により音声空間にマッピングする。
実験により,本モデルが3つのベンチマークで最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2024-09-19T00:08:28Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - VILAS: Exploring the Effects of Vision and Language Context in Automatic
Speech Recognition [18.19998336526969]
ViLaS(Vision and Language into Automatic Speech Recognition)は、CIF(Continuous Integration-and-fire)機構に基づく新しいマルチモーダルASRモデルである。
視覚と言語を統合することの効果を探るため、中国語と英語の両バージョンでマルチモーダルコンテキストキューを備えたマルチモーダルASRデータセットであるVSDialを開発した。
論文 参考訳(メタデータ) (2023-05-31T16:01:20Z) - VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and
Dataset [53.46019570679092]
マルチモーダル理解と生成のためのビジョン・オーディエンジュ・オムニ・ペセプション事前学習モデル(VALOR)を提案する。
VALORは、視覚、音声、言語の関係をエンドツーエンドで共同でモデル化する。
一連の公開モダリティベンチマークにおいて、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2023-04-17T15:08:15Z) - New Audio Representations Image Gan Generation from BriVL [0.0]
本稿では,Briging-Vision-and-Language(BriVL)に基づくロバストな音声表現学習手法を提案する。
WavBriVLは、音声、画像、テキストを共有埋め込み空間に投影し、マルチモーダルアプリケーションを実現する。
論文 参考訳(メタデータ) (2023-03-08T13:58:55Z) - OmniVL:One Foundation Model for Image-Language and Video-Language Tasks [117.57580168859512]
我々は,1つのユニバーサルアーキテクチャを用いて,画像言語と映像言語の両方をサポートする新しい基礎モデルOmniVLを提案する。
従来の一方向転送とは対照的に,画像タスクと映像タスクの両方にこのようなパラダイムが有効であることを示す。
我々は、画像テキスト、ビデオテキスト、画像ラベル(画像分類など)、ビデオラベル(ビデオ行動認識など)データを併用するために、新しい統合視覚言語コントラスト(UniVLC)ロスを導入する。
論文 参考訳(メタデータ) (2022-09-15T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。