Fugu-MT 論文翻訳(概要): New Audio Representations Image Gan Generation from BriVL

論文の概要: New Audio Representations Image Gan Generation from BriVL

arxiv url: http://arxiv.org/abs/2303.04585v1
Date: Wed, 8 Mar 2023 13:58:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-09 13:55:28.145662
Title: New Audio Representations Image Gan Generation from BriVL
Title（参考訳）: brivlから画像ganを生成する新しい音声表現
Authors: Sen Fang, Yangjian Wu, Bowen Gao, Teik Toe Teoh
Abstract要約: 本稿では,Briging-Vision-and-Language(BriVL)に基づくロバストな音声表現学習手法を提案する。 WavBriVLは、音声、画像、テキストを共有埋め込み空間に投影し、マルチモーダルアプリケーションを実現する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, researchers have gradually realized that in some cases, the self-supervised pre-training on large-scale Internet data is better than that of high-quality/manually labeled data sets, and multimodal/large models are better than single or bimodal/small models. In this paper, we propose a robust audio representation learning method WavBriVL based on Bridging-Vision-and-Language (BriVL). WavBriVL projects audio, image and text into a shared embedded space, so that multi-modal applications can be realized. We demonstrate the qualitative evaluation of the image generated from WavBriVL as a shared embedded space, with the main purposes of this paper: (1) Learning the correlation between audio and image; (2) Explore a new way of image generation, that is, use audio to generate pictures. Experimental results show that this method can effectively generate appropriate images from audio.
Abstract（参考訳）: 近年,大規模インターネットデータに対する自己教師付き事前学習は,高品質・手動ラベル付きデータセットよりも優れており,マルチモーダル・大規模モデルの方がシングルモデルやバイモーダル・小型モデルよりも優れていることが研究で徐々に認識されている。本稿では,Briging-Vision-and-Language (BriVL) に基づく頑健な音声表現学習手法を提案する。 wavbrivlは、オーディオ、画像、テキストを共有の埋め込み空間に投影することで、マルチモーダルなアプリケーションを実現する。本稿では,wavbrivlから生成された画像の共有埋め込み空間としての質的評価を,(1)音声と画像の相関関係を学習すること,(2)画像生成の新しい方法を探ること,すなわち,音声を用いて画像を生成すること,という目的から示す。実験結果から,音声から適切な画像を生成することができることがわかった。

関連論文リスト

Seeing Soundscapes: Audio-Visual Generation and Separation from Soundscapes Using Audio-Visual Separator [3.082874165638936]
音環境から画像を生成するためのAV-GAS(Audio-Visual Generation and separation model)を提案する。まず、マルチクラスの音声入力を与えられた画像を生成することを目的として、音声視覚生成タスクに新たな課題を提案する。第2に、混合音声入力に存在する各クラス毎に別々の画像を生成する新しい音声-視覚分離タスクを導入する。
論文参考訳（メタデータ） (2025-04-25T11:51:04Z)
Sound2Vision: Generating Diverse Visuals from Audio through Cross-Modal Latent Alignment [18.08290178587821]
そこで本研究では,様々な音から視覚シーンの画像を生成する手法を提案する。このクロスモーダル生成タスクは、聴覚信号と視覚信号の間に重要な情報ギャップがあるため困難である。
論文参考訳（メタデータ） (2024-12-09T05:04:50Z)
VHASR: A Multimodal Speech Recognition System With Vision Hotwords [74.94430247036945]
VHASRは、視覚をホットワードとして使用し、モデルの音声認識能力を強化するマルチモーダル音声認識システムである。 VHASRは、画像のキー情報を効果的に利用して、モデルの音声認識能力を高めることができる。
論文参考訳（メタデータ） (2024-10-01T16:06:02Z)
From Vision to Audio and Beyond: A Unified Model for Audio-Visual Representation and Generation [17.95017332858846]
本稿では,視覚表現学習と視覚音声生成のギャップを埋める新しいフレームワークであるVision to Audio and Beyond(VAB)を紹介する。 VABは、事前訓練されたオーディオトークンライザと画像エンコーダを使用して、それぞれ音声トークンと視覚的特徴を取得する。実験では,ビデオから高品質な音声を生成するためのVABの効率と,セマンティック・オーディオ・視覚的特徴を習得する能力について紹介した。
論文参考訳（メタデータ） (2024-09-27T20:26:34Z)
Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文参考訳（メタデータ） (2023-09-20T17:59:32Z)
UniBriVL: Robust Universal Representation and Generation of Audio Driven Diffusion Models [0.7510165488300369]
我々はUniBriVLと呼ばれる新しい普遍言語表現学習法を提案する。 Universal BriVLは、音声、画像、テキストを共有空間に埋め込み、様々なマルチモーダルアプリケーションの実現を可能にする。
論文参考訳（メタデータ） (2023-07-29T05:55:25Z)
VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset [53.46019570679092]
マルチモーダル理解と生成のためのビジョン・オーディエンジュ・オムニ・ペセプション事前学習モデル(VALOR)を提案する。 VALORは、視覚、音声、言語の関係をエンドツーエンドで共同でモデル化する。一連の公開モダリティベンチマークにおいて、最先端のパフォーマンスを新たに達成する。
論文参考訳（メタデータ） (2023-04-17T15:08:15Z)
Sound to Visual Scene Generation by Audio-to-Visual Latent Alignment [22.912401512161132]
我々は、各モデルコンポーネントの学習手順をスケジューリングして、オーディオ・視覚的モダリティを関連付けるモデルの設計を行う。入力音声を視覚的特徴に変換し,事前学習した生成器を用いて画像を生成する。 VEGAS と VGGSound のデータセットは,従来の手法よりもかなりよい結果が得られる。
論文参考訳（メタデータ） (2023-03-30T16:01:50Z)
AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文参考訳（メタデータ） (2023-03-29T07:24:28Z)
OmniVL:One Foundation Model for Image-Language and Video-Language Tasks [117.57580168859512]
我々は,1つのユニバーサルアーキテクチャを用いて,画像言語と映像言語の両方をサポートする新しい基礎モデルOmniVLを提案する。従来の一方向転送とは対照的に,画像タスクと映像タスクの両方にこのようなパラダイムが有効であることを示す。我々は、画像テキスト、ビデオテキスト、画像ラベル(画像分類など)、ビデオラベル(ビデオ行動認識など)データを併用するために、新しい統合視覚言語コントラスト(UniVLC)ロスを導入する。
論文参考訳（メタデータ） (2022-09-15T17:59:59Z)
Audio-Visual Segmentation [47.10873917119006]
本稿では,AVS(Audio-visual segmentation)と呼ばれる新しい課題について検討する。ゴールは、画像フレームの時点で音を生成するオブジェクトのピクセルレベルのマップを出力することである。本研究では,可聴ビデオにおける音声オブジェクトに対する画素単位のアノテーションを提供するAVSBench(Audio-visual segmentation benchmark)を構築した。
論文参考訳（メタデータ） (2022-07-11T17:50:36Z)
VL-BEiT: Generative Vision-Language Pretraining [107.25298505511184]
生成前訓練により学習した双方向多モード変換器であるVL-BEiTを提案する。具体的には、画像テキスト対におけるマスク付き視覚言語モデリング、テキスト上でのマスク付き言語モデリング、画像上でのマスク付き画像モデリングを行う。
論文参考訳（メタデータ） (2022-06-02T16:14:19Z)
Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文参考訳（メタデータ） (2022-05-26T03:13:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。