論文の概要: BrewCLIP: A Bifurcated Representation Learning Framework for Audio-Visual Retrieval
- arxiv url: http://arxiv.org/abs/2408.10383v1
- Date: Mon, 19 Aug 2024 19:56:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 17:53:16.032562
- Title: BrewCLIP: A Bifurcated Representation Learning Framework for Audio-Visual Retrieval
- Title(参考訳): BrewCLIP: オーディオ・ビジュアル検索のための分岐表現学習フレームワーク
- Authors: Zhenyu Lu, Lakshay Sethi,
- Abstract要約: パイプラインベースモデルで見落としている非テキスト情報を利用して、音声画像のマッチング性能を向上させることができるかを検討する。
提案手法は, 事前学習の強いモデル, プロンプト機構, 分岐設計を活用することで, 従来の最先端技術よりも大幅な性能向上を実現している。
- 参考スコア(独自算出の注目度): 3.347768376390811
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Previous methods for audio-image matching generally fall into one of two categories: pipeline models or End-to-End models. Pipeline models first transcribe speech and then encode the resulting text; End-to-End models encode speech directly. Generally, pipeline models outperform end-to-end models, but the intermediate transcription necessarily discards some potentially useful non-textual information. In addition to textual information, speech can convey details such as accent, mood, and and emphasis, which should be effectively captured in the encoded representation. In this paper, we investigate whether non-textual information, which is overlooked by pipeline-based models, can be leveraged to improve speech-image matching performance. We thoroughly analyze and compare End-to-End models, pipeline models, and our proposed dual-channel model for robust audio-image retrieval on a variety of datasets. Our approach achieves a substantial performance gain over the previous state-of-the-art by leveraging strong pretrained models, a prompting mechanism and a bifurcated design.
- Abstract(参考訳): 従来のオーディオ画像マッチングの方法は一般的にパイプラインモデルとエンド・ツー・エンドモデルという2つのカテゴリの1つに分類される。
Pipelineはまず音声の書き起こしを行い、結果のテキストをエンコードする。
一般にパイプラインモデルはエンドツーエンドモデルより優れているが、中間転写は必ずしも潜在的に有用な非テキスト情報を捨てる。
テキスト情報に加えて、音声はアクセント、ムード、強調などの詳細を伝達し、エンコードされた表現で効果的に捉えなければならない。
本稿では,パイプラインベースモデルで見過ごされる非テクスチャ情報を利用して,音声画像のマッチング性能を向上させる方法について検討する。
本研究では,エンド・ツー・エンドモデル,パイプラインモデル,提案したデュアルチャネルモデルについて,さまざまなデータセットを用いたロバストな音声画像検索を徹底的に分析・比較する。
提案手法は, 事前学習の強いモデル, プロンプト機構, 分岐設計を活用することで, 従来の最先端技術よりも大幅な性能向上を実現している。
関連論文リスト
- Learning Semantic Information from Raw Audio Signal Using Both
Contextual and Phonetic Representations [18.251845041785906]
本稿では,2種類の表現を用いて生音声信号から意味を学習するフレームワークを提案する。
本稿では,時間分解能の異なる2種類の表現をキャプチャする音声対単位処理パイプラインを提案する。
言語モデルでは、両タイプの表現を組み込むためにデュアルチャネルアーキテクチャを採用する。
論文 参考訳(メタデータ) (2024-02-02T10:39:58Z) - Generative Pre-training for Speech with Flow Matching [81.59952572752248]
我々は,フローマッチングとマスク条件を併用した60k時間の無転写音声に対して,SpeechFlowという生成モデルを事前学習した。
実験結果から,事前学習した生成モデルをタスク固有のデータで微調整し,音声強調,分離,合成に関する既存の専門家モデルに適合または超えることを示す。
論文 参考訳(メタデータ) (2023-10-25T03:40:50Z) - Diffusion Models for Open-Vocabulary Segmentation [79.02153797465324]
OVDiffは、教師なしオープン語彙セグメンテーションに生成テキストから画像への拡散モデルを利用する新しい手法である。
トレーニング済みのコンポーネントのみに依存し、トレーニングなしで合成セグメンタを直接出力する。
論文 参考訳(メタデータ) (2023-06-15T17:51:28Z) - AudioToken: Adaptation of Text-Conditioned Diffusion Models for
Audio-to-Image Generation [89.63430567887718]
そこで本研究では,テキスト・ツー・イメージ・ジェネレーションのために訓練された潜時拡散モデルを用いて,音声記録に条件付き画像を生成する手法を提案する。
提案手法は,事前学習された音声符号化モデルを用いて,音声とテキストの表現の適応層とみなすことができる新しいトークンに音声を符号化する。
論文 参考訳(メタデータ) (2023-05-22T14:02:44Z) - Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z) - End-to-end model for named entity recognition from speech without paired
training data [12.66131972249388]
本稿では,意味情報を抽出するエンド・ツー・エンドのニューラルモデルを構築するアプローチを提案する。
我々のアプローチは、テキストからベクトル表現のシーケンスを生成するために訓練された外部モデルを使用することに基づいている。
quEROコーパスを用いた名前付きエンティティ認識実験は,このアプローチが有望であることを示す。
論文 参考訳(メタデータ) (2022-04-02T08:14:27Z) - WavThruVec: Latent speech representation as intermediate features for
neural speech synthesis [1.1470070927586016]
WavThruVecは、高次元のWav2Vec 2.0埋め込みを中間音声表現として使用することでボトルネックを解決する2段階アーキテクチャである。
提案モデルは,最先端のニューラルモデルの品質に適合するだけでなく,音声変換やゼロショット合成といったタスクを可能にする有用な特性も提示する。
論文 参考訳(メタデータ) (2022-03-31T10:21:08Z) - Speech Summarization using Restricted Self-Attention [79.89680891246827]
音声要約に最適化された単一モデルを提案する。
提案モデルでは,ハウ-2コーパスの音声を直接要約する手法が提案されている。
論文 参考訳(メタデータ) (2021-10-12T18:21:23Z) - End-to-end Audio-visual Speech Recognition with Conformers [65.30276363777514]
ResNet-18とConvolution-augmented Transformer(Conformer)に基づくハイブリッドCTC/Attentionモデルを提案する。
特に、オーディオおよびビジュアルエンコーダは、生のピクセルとオーディオ波形から直接特徴を抽出することを学びます。
提案手法は, 音声のみ, 視覚のみ, および視聴覚実験において, 最先端の性能を高めることを実証する。
論文 参考訳(メタデータ) (2021-02-12T18:00:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。