論文の概要: UniBriVL: Robust Universal Representation and Generation of Audio Driven
Diffusion Models
- arxiv url: http://arxiv.org/abs/2307.15898v2
- Date: Sat, 9 Sep 2023 11:14:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 19:06:23.666050
- Title: UniBriVL: Robust Universal Representation and Generation of Audio Driven
Diffusion Models
- Title(参考訳): UniBriVL:ロバストな普遍表現と音声駆動拡散モデルの生成
- Authors: Sen Fang, Bowen Gao, Yangjian Wu, Teik Toe Teoh
- Abstract要約: 我々はUniBriVLと呼ばれる新しい普遍言語表現学習法を提案する。
Universal BriVLは、音声、画像、テキストを共有空間に埋め込み、様々なマルチモーダルアプリケーションの実現を可能にする。
- 参考スコア(独自算出の注目度): 0.7510165488300369
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large models have been recognized for their advantages in various
performance and downstream tasks. The development of these models is crucial
towards achieving general artificial intelligence in the future. In this paper,
we propose a novel universal language representation learning method called
UniBriVL, which is based on Bridging-Vision-and-Language (BriVL). Universal
BriVL embeds audio, image, and text into a shared space, enabling the
realization of various multimodal applications. Our approach addresses major
challenges in robust language (both text and audio) representation learning and
effectively captures the correlation between audio and image. Additionally, we
demonstrate the qualitative evaluation of the generated images from UniBriVL,
which serves to highlight the potential of our approach in creating images from
audio. Overall, our experimental results demonstrate the efficacy of UniBriVL
in downstream tasks and its ability to choose appropriate images from audio.
The proposed approach has the potential for various applications such as speech
recognition, music signal processing, and captioning systems.
- Abstract(参考訳): マルチモーダルな大規模モデルは、様々な性能および下流タスクにおいてその利点が認められている。
これらのモデルの開発は、将来的な人工知能の実現に不可欠である。
本稿では,Briging-Vision-and-Language(BriVL)に基づくUniBriVLという新しいユニバーサル言語表現学習手法を提案する。
Universal BriVLは、音声、画像、テキストを共有空間に埋め込み、様々なマルチモーダルアプリケーションの実現を可能にする。
本手法は,頑健な言語(テキストと音声の両方)表現学習における大きな課題に対処し,音声と画像の相関を効果的に捉える。
さらに、unibrivlから生成された画像の質的評価を実証し、音声から画像を作成する際の我々のアプローチの可能性を強調する。
実験の結果,下流作業におけるUniBriVLの有効性と,音声から適切な画像を選択する能力が示された。
提案手法は,音声認識,音楽信号処理,キャプションシステムなど,様々な応用の可能性を秘めている。
関連論文リスト
- MAiVAR-T: Multimodal Audio-image and Video Action Recognizer using
Transformers [18.72489078928417]
オーディオ画像とビデオのモダリティを組み合わせた新しいモデルを提案する。
このモデルは、オーディオ画像とビデオモダリティの組み合わせに直感的なアプローチを採用する。
ベンチマーク動作認識データセット上で実施した経験的評価は,そのモデルの顕著な性能を裏付けるものである。
論文 参考訳(メタデータ) (2023-08-01T11:00:25Z) - VILAS: Exploring the Effects of Vision and Language Context in Automatic
Speech Recognition [18.19998336526969]
ViLaS(Vision and Language into Automatic Speech Recognition)は、CIF(Continuous Integration-and-fire)機構に基づく新しいマルチモーダルASRモデルである。
視覚と言語を統合することの効果を探るため、中国語と英語の両バージョンでマルチモーダルコンテキストキューを備えたマルチモーダルASRデータセットであるVSDialを開発した。
論文 参考訳(メタデータ) (2023-05-31T16:01:20Z) - VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and
Dataset [53.46019570679092]
マルチモーダル理解と生成のためのビジョン・オーディエンジュ・オムニ・ペセプション事前学習モデル(VALOR)を提案する。
VALORは、視覚、音声、言語の関係をエンドツーエンドで共同でモデル化する。
一連の公開モダリティベンチマークにおいて、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2023-04-17T15:08:15Z) - New Audio Representations Image Gan Generation from BriVL [0.0]
本稿では,Briging-Vision-and-Language(BriVL)に基づくロバストな音声表現学習手法を提案する。
WavBriVLは、音声、画像、テキストを共有埋め込み空間に投影し、マルチモーダルアプリケーションを実現する。
論文 参考訳(メタデータ) (2023-03-08T13:58:55Z) - OmniVL:One Foundation Model for Image-Language and Video-Language Tasks [117.57580168859512]
我々は,1つのユニバーサルアーキテクチャを用いて,画像言語と映像言語の両方をサポートする新しい基礎モデルOmniVLを提案する。
従来の一方向転送とは対照的に,画像タスクと映像タスクの両方にこのようなパラダイムが有効であることを示す。
我々は、画像テキスト、ビデオテキスト、画像ラベル(画像分類など)、ビデオラベル(ビデオ行動認識など)データを併用するために、新しい統合視覚言語コントラスト(UniVLC)ロスを導入する。
論文 参考訳(メタデータ) (2022-09-15T17:59:59Z) - VL-BEiT: Generative Vision-Language Pretraining [107.25298505511184]
生成前訓練により学習した双方向多モード変換器であるVL-BEiTを提案する。
具体的には、画像テキスト対におけるマスク付き視覚言語モデリング、テキスト上でのマスク付き言語モデリング、画像上でのマスク付き画像モデリングを行う。
論文 参考訳(メタデータ) (2022-06-02T16:14:19Z) - Uni-EDEN: Universal Encoder-Decoder Network by Multi-Granular
Vision-Language Pre-training [120.91411454661741]
視覚言語認識と生成を容易にするための訓練済みユニバーサル・デコーダネットワーク(Uni-EDEN)を提案する。
Uni-EDENは2ストリームトランスフォーマーベースの構造で、オブジェクトと文エンコーダの3つのモジュールで構成され、各モダリティの表現を別々に学習する。
論文 参考訳(メタデータ) (2022-01-11T16:15:07Z) - Fine-Grained Grounding for Multimodal Speech Recognition [49.01826387664443]
本稿では,画像の各部分からよりきめ細かい視覚情報を利用するモデルを提案する。
Flickr8K Audio Captions Corpusの実験では、私たちのモデルはグローバルな視覚的特徴を使用するアプローチよりも改善されていることがわかった。
論文 参考訳(メタデータ) (2020-10-05T23:06:24Z) - Self-Supervised MultiModal Versatile Networks [76.19886740072808]
我々は、ビデオに自然に存在する3つのモダリティ(ビジュアル、オーディオ、言語ストリーム)を活用することで、自己スーパービジョンを用いて表現を学習する。
ビデオ, ビデオテキスト, 画像, 音声タスクに対して, ビデオデータの大規模な収集を訓練したネットワークを, どのように適用できるかを実証する。
論文 参考訳(メタデータ) (2020-06-29T17:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。