論文の概要: New Audio Representations Image Gan Generation from BriVL
- arxiv url: http://arxiv.org/abs/2303.04585v1
- Date: Wed, 8 Mar 2023 13:58:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-09 13:55:28.145662
- Title: New Audio Representations Image Gan Generation from BriVL
- Title(参考訳): brivlから画像ganを生成する新しい音声表現
- Authors: Sen Fang, Yangjian Wu, Bowen Gao, Teik Toe Teoh
- Abstract要約: 本稿では,Briging-Vision-and-Language(BriVL)に基づくロバストな音声表現学習手法を提案する。
WavBriVLは、音声、画像、テキストを共有埋め込み空間に投影し、マルチモーダルアプリケーションを実現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, researchers have gradually realized that in some cases, the
self-supervised pre-training on large-scale Internet data is better than that
of high-quality/manually labeled data sets, and multimodal/large models are
better than single or bimodal/small models. In this paper, we propose a robust
audio representation learning method WavBriVL based on
Bridging-Vision-and-Language (BriVL). WavBriVL projects audio, image and text
into a shared embedded space, so that multi-modal applications can be realized.
We demonstrate the qualitative evaluation of the image generated from WavBriVL
as a shared embedded space, with the main purposes of this paper: (1) Learning
the correlation between audio and image; (2) Explore a new way of image
generation, that is, use audio to generate pictures. Experimental results show
that this method can effectively generate appropriate images from audio.
- Abstract(参考訳): 近年,大規模インターネットデータに対する自己教師付き事前学習は,高品質・手動ラベル付きデータセットよりも優れており,マルチモーダル・大規模モデルの方がシングルモデルやバイモーダル・小型モデルよりも優れていることが研究で徐々に認識されている。
本稿では,Briging-Vision-and-Language (BriVL) に基づく頑健な音声表現学習手法を提案する。
wavbrivlは、オーディオ、画像、テキストを共有の埋め込み空間に投影することで、マルチモーダルなアプリケーションを実現する。
本稿では,wavbrivlから生成された画像の共有埋め込み空間としての質的評価を,(1)音声と画像の相関関係を学習すること,(2)画像生成の新しい方法を探ること,すなわち,音声を用いて画像を生成すること,という目的から示す。
実験結果から,音声から適切な画像を生成することができることがわかった。
関連論文リスト
- Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - Can CLIP Help Sound Source Localization? [19.370071553914954]
音声信号をCLIPのテキストエンコーダと互換性のあるトークンに変換するフレームワークを提案する。
これらの埋め込みを直接利用することにより,提案手法は提供音声のための音声グラウンドマスクを生成する。
この結果から,事前学習した画像テキストモデルを用いることで,より完全でコンパクトな音像定位写像を生成できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-07T15:26:57Z) - UniBriVL: Robust Universal Representation and Generation of Audio Driven
Diffusion Models [0.7510165488300369]
我々はUniBriVLと呼ばれる新しい普遍言語表現学習法を提案する。
Universal BriVLは、音声、画像、テキストを共有空間に埋め込み、様々なマルチモーダルアプリケーションの実現を可能にする。
論文 参考訳(メタデータ) (2023-07-29T05:55:25Z) - VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and
Dataset [53.46019570679092]
マルチモーダル理解と生成のためのビジョン・オーディエンジュ・オムニ・ペセプション事前学習モデル(VALOR)を提案する。
VALORは、視覚、音声、言語の関係をエンドツーエンドで共同でモデル化する。
一連の公開モダリティベンチマークにおいて、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2023-04-17T15:08:15Z) - A Closer Look at Audio-Visual Segmentation [19.628146028102027]
コスト効率と比較的偏りのない音声視覚的セマンティックセグメンテーションベンチマークを構築するための新しい戦略を提案する。
本稿では,新たな画素単位の音声・視覚コントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2023-04-06T09:54:06Z) - Sound to Visual Scene Generation by Audio-to-Visual Latent Alignment [22.912401512161132]
我々は、各モデルコンポーネントの学習手順をスケジューリングして、オーディオ・視覚的モダリティを関連付けるモデルの設計を行う。
入力音声を視覚的特徴に変換し,事前学習した生成器を用いて画像を生成する。
VEGAS と VGGSound のデータセットは,従来の手法よりもかなりよい結果が得られる。
論文 参考訳(メタデータ) (2023-03-30T16:01:50Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - OmniVL:One Foundation Model for Image-Language and Video-Language Tasks [117.57580168859512]
我々は,1つのユニバーサルアーキテクチャを用いて,画像言語と映像言語の両方をサポートする新しい基礎モデルOmniVLを提案する。
従来の一方向転送とは対照的に,画像タスクと映像タスクの両方にこのようなパラダイムが有効であることを示す。
我々は、画像テキスト、ビデオテキスト、画像ラベル(画像分類など)、ビデオラベル(ビデオ行動認識など)データを併用するために、新しい統合視覚言語コントラスト(UniVLC)ロスを導入する。
論文 参考訳(メタデータ) (2022-09-15T17:59:59Z) - Audio-Visual Segmentation [47.10873917119006]
本稿では,AVS(Audio-visual segmentation)と呼ばれる新しい課題について検討する。
ゴールは、画像フレームの時点で音を生成するオブジェクトのピクセルレベルのマップを出力することである。
本研究では,可聴ビデオにおける音声オブジェクトに対する画素単位のアノテーションを提供するAVSBench(Audio-visual segmentation benchmark)を構築した。
論文 参考訳(メタデータ) (2022-07-11T17:50:36Z) - VL-BEiT: Generative Vision-Language Pretraining [107.25298505511184]
生成前訓練により学習した双方向多モード変換器であるVL-BEiTを提案する。
具体的には、画像テキスト対におけるマスク付き視覚言語モデリング、テキスト上でのマスク付き言語モデリング、画像上でのマスク付き画像モデリングを行う。
論文 参考訳(メタデータ) (2022-06-02T16:14:19Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。