論文の概要: SpeechCLIP+: Self-supervised multi-task representation learning for
speech via CLIP and speech-image data
- arxiv url: http://arxiv.org/abs/2402.06959v1
- Date: Sat, 10 Feb 2024 14:26:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 18:18:14.000521
- Title: SpeechCLIP+: Self-supervised multi-task representation learning for
speech via CLIP and speech-image data
- Title(参考訳): SpeechCLIP+:CLIPと音声画像データによる音声のマルチタスク表現学習
- Authors: Hsuan-Fu Wang, Yi-Jen Shih, Heng-Jui Chang, Layne Berry, Puyuan Peng,
Hung-yi Lee, Hsin-Min Wang, David Harwath
- Abstract要約: SpeechCLIPは、テキストの書き起こしに頼ることなく、CLIPを介して画像を介して音声とテキストをブリッジする革新的なフレームワークである。
本稿では,SpeechCLIPの2つの拡張を紹介する。まず,CIF(Continuous Integrate-and-Fire)モジュールを用いて,カスケードアーキテクチャにおける固定数のCLSトークンを置き換える。
第2に,SpeechCLIPのカスケードおよび並列アーキテクチャをマルチタスク学習フレームワークにマージするハイブリッドアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 69.20254987896674
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recently proposed visually grounded speech model SpeechCLIP is an
innovative framework that bridges speech and text through images via CLIP
without relying on text transcription. On this basis, this paper introduces two
extensions to SpeechCLIP. First, we apply the Continuous Integrate-and-Fire
(CIF) module to replace a fixed number of CLS tokens in the cascaded
architecture. Second, we propose a new hybrid architecture that merges the
cascaded and parallel architectures of SpeechCLIP into a multi-task learning
framework. Our experimental evaluation is performed on the Flickr8k and
SpokenCOCO datasets. The results show that in the speech keyword extraction
task, the CIF-based cascaded SpeechCLIP model outperforms the previous cascaded
SpeechCLIP model using a fixed number of CLS tokens. Furthermore, through our
hybrid architecture, cascaded task learning boosts the performance of the
parallel branch in image-speech retrieval tasks.
- Abstract(参考訳): 最近提案された音声モデルSpeechCLIPは、テキストの書き起こしに頼ることなく、CLIPを介して音声とテキストをブリッジする革新的なフレームワークである。
そこで本稿では, speechclip の拡張を2つ紹介する。
まず、CIF(Continuous Integrate-and-Fire)モジュールを使用して、カスケードアーキテクチャにおける固定数のCLSトークンを置き換える。
第2に,speechclipのカスケードおよび並列アーキテクチャをマルチタスク学習フレームワークに統合する,新たなハイブリッドアーキテクチャを提案する。
Flickr8kおよびSpkenCOCOデータセットを用いて実験を行った。
その結果, 音声キーワード抽出タスクにおいて, CIFをベースとしたcascaded SpeechCLIPモデルは, 一定数のCLSトークンを用いて, 従来のcascaded SpeechCLIPモデルよりも優れていることがわかった。
さらに,我々のハイブリッドアーキテクチャにより,画像音声検索タスクにおける並列分岐の性能が向上する。
関連論文リスト
- Fine-tuning CLIP Text Encoders with Two-step Paraphrasing [83.3736789315201]
パラフレーズに対するCLIPモデルの表現を強化するための簡単な微調整手法を提案する。
ParaCLIPと呼ばれる我々のモデルは、様々なタスクでベースラインCLIPモデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-23T06:11:50Z) - Towards More Unified In-context Visual Understanding [77.03395229184238]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - Symmetrical Linguistic Feature Distillation with CLIP for Scene Text
Recognition [77.93678598476149]
CLIP-OCR(Symmetrical Linguistic Feature Distillation framework)を新たに構築する。
CLIP画像エンコーダを逆CLIPテキストエンコーダでカスケードすることにより、画像からテキストまでの特徴フローで対称構造を構築する。
大規模な実験では、CLIP-OCRが6つのSTRベンチマークで平均精度93.8%で有効であることが示されている。
論文 参考訳(メタデータ) (2023-10-08T04:00:20Z) - Composed Image Retrieval using Contrastive Learning and Task-oriented
CLIP-based Features [32.138956674478116]
参照画像と相対キャプションからなるクエリが与えられた場合、Composeed Image Retrievalの目的は、参照画像と視覚的に類似した画像を取得することである。
検討されたタスクに対処するために、OpenAI CLIPモデルの機能を使用します。
我々は、バイモーダル情報を統合することで、画像テキスト機能を組み合わせることを学ぶコンビネータネットワークを訓練する。
論文 参考訳(メタデータ) (2023-08-22T15:03:16Z) - Improving CLIP Training with Language Rewrites [57.935517901210225]
言語書き換えによるCLIPトレーニングを強化するために,Language augmented CLIP (LaCLIP)を導入した。
また,LaCLIPは,学習中に計算やメモリオーバーヘッドを伴わずに転送性能を大幅に向上することを示した。
ImageNetゼロショット精度では、LaCLIPはCC12MでCLIPを8.2%、LAION-400Mで2.4%上回る。
論文 参考訳(メタデータ) (2023-05-31T17:59:04Z) - CLIPPO: Image-and-Language Understanding from Pixels Only [36.433133689137875]
我々は、画像、テキスト、マルチモーダルタスクを実行するための純粋なピクセルベースモデルを提案する。
我々のモデルは対照的な損失だけで訓練されているので、CLIP-Pixels Only (CLIPPO)と呼ぶ。
画像テキストのコントラスト学習と次文のコントラスト学習を併用することで、CLIPPOは自然言語理解タスクでうまく機能する。
論文 参考訳(メタデータ) (2022-12-15T18:52:08Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。