論文の概要: New Audio Representations Image Gan Generation from BriVL
- arxiv url: http://arxiv.org/abs/2303.04585v1
- Date: Wed, 8 Mar 2023 13:58:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-09 13:55:28.145662
- Title: New Audio Representations Image Gan Generation from BriVL
- Title(参考訳): brivlから画像ganを生成する新しい音声表現
- Authors: Sen Fang, Yangjian Wu, Bowen Gao, Teik Toe Teoh
- Abstract要約: 本稿では,Briging-Vision-and-Language(BriVL)に基づくロバストな音声表現学習手法を提案する。
WavBriVLは、音声、画像、テキストを共有埋め込み空間に投影し、マルチモーダルアプリケーションを実現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, researchers have gradually realized that in some cases, the
self-supervised pre-training on large-scale Internet data is better than that
of high-quality/manually labeled data sets, and multimodal/large models are
better than single or bimodal/small models. In this paper, we propose a robust
audio representation learning method WavBriVL based on
Bridging-Vision-and-Language (BriVL). WavBriVL projects audio, image and text
into a shared embedded space, so that multi-modal applications can be realized.
We demonstrate the qualitative evaluation of the image generated from WavBriVL
as a shared embedded space, with the main purposes of this paper: (1) Learning
the correlation between audio and image; (2) Explore a new way of image
generation, that is, use audio to generate pictures. Experimental results show
that this method can effectively generate appropriate images from audio.
- Abstract(参考訳): 近年,大規模インターネットデータに対する自己教師付き事前学習は,高品質・手動ラベル付きデータセットよりも優れており,マルチモーダル・大規模モデルの方がシングルモデルやバイモーダル・小型モデルよりも優れていることが研究で徐々に認識されている。
本稿では,Briging-Vision-and-Language (BriVL) に基づく頑健な音声表現学習手法を提案する。
wavbrivlは、オーディオ、画像、テキストを共有の埋め込み空間に投影することで、マルチモーダルなアプリケーションを実現する。
本稿では,wavbrivlから生成された画像の共有埋め込み空間としての質的評価を,(1)音声と画像の相関関係を学習すること,(2)画像生成の新しい方法を探ること,すなわち,音声を用いて画像を生成すること,という目的から示す。
実験結果から,音声から適切な画像を生成することができることがわかった。
関連論文リスト
- VHASR: A Multimodal Speech Recognition System With Vision Hotwords [74.94430247036945]
VHASRは、視覚をホットワードとして使用し、モデルの音声認識能力を強化するマルチモーダル音声認識システムである。
VHASRは、画像のキー情報を効果的に利用して、モデルの音声認識能力を高めることができる。
論文 参考訳(メタデータ) (2024-10-01T16:06:02Z) - From Vision to Audio and Beyond: A Unified Model for Audio-Visual Representation and Generation [17.95017332858846]
本稿では,視覚表現学習と視覚音声生成のギャップを埋める新しいフレームワークであるVision to Audio and Beyond(VAB)を紹介する。
VABは、事前訓練されたオーディオトークンライザと画像エンコーダを使用して、それぞれ音声トークンと視覚的特徴を取得する。
実験では,ビデオから高品質な音声を生成するためのVABの効率と,セマンティック・オーディオ・視覚的特徴を習得する能力について紹介した。
論文 参考訳(メタデータ) (2024-09-27T20:26:34Z) - Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - UniBriVL: Robust Universal Representation and Generation of Audio Driven
Diffusion Models [0.7510165488300369]
我々はUniBriVLと呼ばれる新しい普遍言語表現学習法を提案する。
Universal BriVLは、音声、画像、テキストを共有空間に埋め込み、様々なマルチモーダルアプリケーションの実現を可能にする。
論文 参考訳(メタデータ) (2023-07-29T05:55:25Z) - VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and
Dataset [53.46019570679092]
マルチモーダル理解と生成のためのビジョン・オーディエンジュ・オムニ・ペセプション事前学習モデル(VALOR)を提案する。
VALORは、視覚、音声、言語の関係をエンドツーエンドで共同でモデル化する。
一連の公開モダリティベンチマークにおいて、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2023-04-17T15:08:15Z) - Sound to Visual Scene Generation by Audio-to-Visual Latent Alignment [22.912401512161132]
我々は、各モデルコンポーネントの学習手順をスケジューリングして、オーディオ・視覚的モダリティを関連付けるモデルの設計を行う。
入力音声を視覚的特徴に変換し,事前学習した生成器を用いて画像を生成する。
VEGAS と VGGSound のデータセットは,従来の手法よりもかなりよい結果が得られる。
論文 参考訳(メタデータ) (2023-03-30T16:01:50Z) - OmniVL:One Foundation Model for Image-Language and Video-Language Tasks [117.57580168859512]
我々は,1つのユニバーサルアーキテクチャを用いて,画像言語と映像言語の両方をサポートする新しい基礎モデルOmniVLを提案する。
従来の一方向転送とは対照的に,画像タスクと映像タスクの両方にこのようなパラダイムが有効であることを示す。
我々は、画像テキスト、ビデオテキスト、画像ラベル(画像分類など)、ビデオラベル(ビデオ行動認識など)データを併用するために、新しい統合視覚言語コントラスト(UniVLC)ロスを導入する。
論文 参考訳(メタデータ) (2022-09-15T17:59:59Z) - Audio-Visual Segmentation [47.10873917119006]
本稿では,AVS(Audio-visual segmentation)と呼ばれる新しい課題について検討する。
ゴールは、画像フレームの時点で音を生成するオブジェクトのピクセルレベルのマップを出力することである。
本研究では,可聴ビデオにおける音声オブジェクトに対する画素単位のアノテーションを提供するAVSBench(Audio-visual segmentation benchmark)を構築した。
論文 参考訳(メタデータ) (2022-07-11T17:50:36Z) - VL-BEiT: Generative Vision-Language Pretraining [107.25298505511184]
生成前訓練により学習した双方向多モード変換器であるVL-BEiTを提案する。
具体的には、画像テキスト対におけるマスク付き視覚言語モデリング、テキスト上でのマスク付き言語モデリング、画像上でのマスク付き画像モデリングを行う。
論文 参考訳(メタデータ) (2022-06-02T16:14:19Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。