論文の概要: SpeechCLIP+: Self-supervised multi-task representation learning for
speech via CLIP and speech-image data
- arxiv url: http://arxiv.org/abs/2402.06959v1
- Date: Sat, 10 Feb 2024 14:26:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 18:18:14.000521
- Title: SpeechCLIP+: Self-supervised multi-task representation learning for
speech via CLIP and speech-image data
- Title(参考訳): SpeechCLIP+:CLIPと音声画像データによる音声のマルチタスク表現学習
- Authors: Hsuan-Fu Wang, Yi-Jen Shih, Heng-Jui Chang, Layne Berry, Puyuan Peng,
Hung-yi Lee, Hsin-Min Wang, David Harwath
- Abstract要約: SpeechCLIPは、テキストの書き起こしに頼ることなく、CLIPを介して画像を介して音声とテキストをブリッジする革新的なフレームワークである。
本稿では,SpeechCLIPの2つの拡張を紹介する。まず,CIF(Continuous Integrate-and-Fire)モジュールを用いて,カスケードアーキテクチャにおける固定数のCLSトークンを置き換える。
第2に,SpeechCLIPのカスケードおよび並列アーキテクチャをマルチタスク学習フレームワークにマージするハイブリッドアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 69.20254987896674
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recently proposed visually grounded speech model SpeechCLIP is an
innovative framework that bridges speech and text through images via CLIP
without relying on text transcription. On this basis, this paper introduces two
extensions to SpeechCLIP. First, we apply the Continuous Integrate-and-Fire
(CIF) module to replace a fixed number of CLS tokens in the cascaded
architecture. Second, we propose a new hybrid architecture that merges the
cascaded and parallel architectures of SpeechCLIP into a multi-task learning
framework. Our experimental evaluation is performed on the Flickr8k and
SpokenCOCO datasets. The results show that in the speech keyword extraction
task, the CIF-based cascaded SpeechCLIP model outperforms the previous cascaded
SpeechCLIP model using a fixed number of CLS tokens. Furthermore, through our
hybrid architecture, cascaded task learning boosts the performance of the
parallel branch in image-speech retrieval tasks.
- Abstract(参考訳): 最近提案された音声モデルSpeechCLIPは、テキストの書き起こしに頼ることなく、CLIPを介して音声とテキストをブリッジする革新的なフレームワークである。
そこで本稿では, speechclip の拡張を2つ紹介する。
まず、CIF(Continuous Integrate-and-Fire)モジュールを使用して、カスケードアーキテクチャにおける固定数のCLSトークンを置き換える。
第2に,speechclipのカスケードおよび並列アーキテクチャをマルチタスク学習フレームワークに統合する,新たなハイブリッドアーキテクチャを提案する。
Flickr8kおよびSpkenCOCOデータセットを用いて実験を行った。
その結果, 音声キーワード抽出タスクにおいて, CIFをベースとしたcascaded SpeechCLIPモデルは, 一定数のCLSトークンを用いて, 従来のcascaded SpeechCLIPモデルよりも優れていることがわかった。
さらに,我々のハイブリッドアーキテクチャにより,画像音声検索タスクにおける並列分岐の性能が向上する。
関連論文リスト
- ITACLIP: Boosting Training-Free Semantic Segmentation with Image, Text, and Architectural Enhancements [0.6990493129893112]
ビジョン言語モデルの最近の進歩は、コンピュータビジョンタスクにおける評価パラダイムを再形成している。
これらの基礎モデル、特にCLIPは、オープン語彙コンピュータビジョンタスクの研究を加速してきた。
本研究では,CLIPのセマンティックセグメンテーション性能を,新しいモジュールの導入と修正によって向上させる。
ITACLIPはセグメンテーションベンチマークの最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-11-18T20:31:38Z) - Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。
高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。
さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文 参考訳(メタデータ) (2024-04-27T02:04:36Z) - Fine-tuning CLIP Text Encoders with Two-step Paraphrasing [83.3736789315201]
パラフレーズに対するCLIPモデルの表現を強化するための簡単な微調整手法を提案する。
ParaCLIPと呼ばれる我々のモデルは、様々なタスクでベースラインCLIPモデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-23T06:11:50Z) - Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - Symmetrical Linguistic Feature Distillation with CLIP for Scene Text
Recognition [77.93678598476149]
CLIP-OCR(Symmetrical Linguistic Feature Distillation framework)を新たに構築する。
CLIP画像エンコーダを逆CLIPテキストエンコーダでカスケードすることにより、画像からテキストまでの特徴フローで対称構造を構築する。
大規模な実験では、CLIP-OCRが6つのSTRベンチマークで平均精度93.8%で有効であることが示されている。
論文 参考訳(メタデータ) (2023-10-08T04:00:20Z) - Composed Image Retrieval using Contrastive Learning and Task-oriented
CLIP-based Features [32.138956674478116]
参照画像と相対キャプションからなるクエリが与えられた場合、Composeed Image Retrievalの目的は、参照画像と視覚的に類似した画像を取得することである。
検討されたタスクに対処するために、OpenAI CLIPモデルの機能を使用します。
我々は、バイモーダル情報を統合することで、画像テキスト機能を組み合わせることを学ぶコンビネータネットワークを訓練する。
論文 参考訳(メタデータ) (2023-08-22T15:03:16Z) - CLIPPO: Image-and-Language Understanding from Pixels Only [36.433133689137875]
我々は、画像、テキスト、マルチモーダルタスクを実行するための純粋なピクセルベースモデルを提案する。
我々のモデルは対照的な損失だけで訓練されているので、CLIP-Pixels Only (CLIPPO)と呼ぶ。
画像テキストのコントラスト学習と次文のコントラスト学習を併用することで、CLIPPOは自然言語理解タスクでうまく機能する。
論文 参考訳(メタデータ) (2022-12-15T18:52:08Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。