Fugu-MT 論文翻訳(概要): SpeechCLIP+: Self-supervised multi-task representation learning for speech via CLIP and speech-image data

論文の概要: SpeechCLIP+: Self-supervised multi-task representation learning for speech via CLIP and speech-image data

arxiv url: http://arxiv.org/abs/2402.06959v1
Date: Sat, 10 Feb 2024 14:26:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-13 18:18:14.000521
Title: SpeechCLIP+: Self-supervised multi-task representation learning for speech via CLIP and speech-image data
Title（参考訳）: SpeechCLIP+:CLIPと音声画像データによる音声のマルチタスク表現学習
Authors: Hsuan-Fu Wang, Yi-Jen Shih, Heng-Jui Chang, Layne Berry, Puyuan Peng, Hung-yi Lee, Hsin-Min Wang, David Harwath
Abstract要約: SpeechCLIPは、テキストの書き起こしに頼ることなく、CLIPを介して画像を介して音声とテキストをブリッジする革新的なフレームワークである。本稿では,SpeechCLIPの2つの拡張を紹介する。まず,CIF(Continuous Integrate-and-Fire)モジュールを用いて,カスケードアーキテクチャにおける固定数のCLSトークンを置き換える。第2に,SpeechCLIPのカスケードおよび並列アーキテクチャをマルチタスク学習フレームワークにマージするハイブリッドアーキテクチャを提案する。
参考スコア（独自算出の注目度）: 69.20254987896674
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The recently proposed visually grounded speech model SpeechCLIP is an innovative framework that bridges speech and text through images via CLIP without relying on text transcription. On this basis, this paper introduces two extensions to SpeechCLIP. First, we apply the Continuous Integrate-and-Fire (CIF) module to replace a fixed number of CLS tokens in the cascaded architecture. Second, we propose a new hybrid architecture that merges the cascaded and parallel architectures of SpeechCLIP into a multi-task learning framework. Our experimental evaluation is performed on the Flickr8k and SpokenCOCO datasets. The results show that in the speech keyword extraction task, the CIF-based cascaded SpeechCLIP model outperforms the previous cascaded SpeechCLIP model using a fixed number of CLS tokens. Furthermore, through our hybrid architecture, cascaded task learning boosts the performance of the parallel branch in image-speech retrieval tasks.
Abstract（参考訳）: 最近提案された音声モデルSpeechCLIPは、テキストの書き起こしに頼ることなく、CLIPを介して音声とテキストをブリッジする革新的なフレームワークである。そこで本稿では, speechclip の拡張を2つ紹介する。まず、CIF(Continuous Integrate-and-Fire)モジュールを使用して、カスケードアーキテクチャにおける固定数のCLSトークンを置き換える。第2に,speechclipのカスケードおよび並列アーキテクチャをマルチタスク学習フレームワークに統合する,新たなハイブリッドアーキテクチャを提案する。 Flickr8kおよびSpkenCOCOデータセットを用いて実験を行った。その結果, 音声キーワード抽出タスクにおいて, CIFをベースとしたcascaded SpeechCLIPモデルは, 一定数のCLSトークンを用いて, 従来のcascaded SpeechCLIPモデルよりも優れていることがわかった。さらに,我々のハイブリッドアーキテクチャにより,画像音声検索タスクにおける並列分岐の性能が向上する。

関連論文リスト

un$^2$CLIP: Improving CLIP's Visual Detail Capturing Ability via Inverting unCLIP [75.19266107565109]
コントラスト言語-画像事前学習(CLIP)が基礎モデルとなり、様々なビジョンやマルチモーダルタスクに適用されている。この作業は既存のCLIPモデルの改善に重点を置いており、可能な限り多くの画像の視覚的詳細をキャプチャすることを目的としている。
論文参考訳（メタデータ） (2025-05-30T12:29:38Z)
DINOv2 Meets Text: A Unified Framework for Image- and Pixel-Level Vision-Language Alignment [20.953645420787527]
計算コストのごく一部でCLIPライクなモデルをトレーニングする。ゼロショット分類とオープンボキャブラリセマンティックセマンティックセグメンテーションの最先端結果を得る。
論文参考訳（メタデータ） (2024-12-20T20:46:48Z)
ITACLIP: Boosting Training-Free Semantic Segmentation with Image, Text, and Architectural Enhancements [0.6990493129893112]
ビジョン言語モデルの最近の進歩は、コンピュータビジョンタスクにおける評価パラダイムを再形成している。これらの基礎モデル、特にCLIPは、オープン語彙コンピュータビジョンタスクの研究を加速してきた。本研究では,CLIPのセマンティックセグメンテーション性能を,新しいモジュールの導入と修正によって向上させる。 ITACLIPはセグメンテーションベンチマークの最先端手法よりも優れている。
論文参考訳（メタデータ） (2024-11-18T20:31:38Z)
Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文参考訳（メタデータ） (2024-04-27T02:04:36Z)
Fine-tuning CLIP Text Encoders with Two-step Paraphrasing [83.3736789315201]
パラフレーズに対するCLIPモデルの表現を強化するための簡単な微調整手法を提案する。 ParaCLIPと呼ばれる我々のモデルは、様々なタスクでベースラインCLIPモデルよりも大幅に改善されている。
論文参考訳（メタデータ） (2024-02-23T06:11:50Z)
Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文参考訳（メタデータ） (2023-12-05T06:02:21Z)
Symmetrical Linguistic Feature Distillation with CLIP for Scene Text Recognition [77.93678598476149]
CLIP-OCR(Symmetrical Linguistic Feature Distillation framework)を新たに構築する。 CLIP画像エンコーダを逆CLIPテキストエンコーダでカスケードすることにより、画像からテキストまでの特徴フローで対称構造を構築する。大規模な実験では、CLIP-OCRが6つのSTRベンチマークで平均精度93.8%で有効であることが示されている。
論文参考訳（メタデータ） (2023-10-08T04:00:20Z)
Composed Image Retrieval using Contrastive Learning and Task-oriented CLIP-based Features [32.138956674478116]
参照画像と相対キャプションからなるクエリが与えられた場合、Composeed Image Retrievalの目的は、参照画像と視覚的に類似した画像を取得することである。検討されたタスクに対処するために、OpenAI CLIPモデルの機能を使用します。我々は、バイモーダル情報を統合することで、画像テキスト機能を組み合わせることを学ぶコンビネータネットワークを訓練する。
論文参考訳（メタデータ） (2023-08-22T15:03:16Z)
CLIPPO: Image-and-Language Understanding from Pixels Only [36.433133689137875]
我々は、画像、テキスト、マルチモーダルタスクを実行するための純粋なピクセルベースモデルを提案する。我々のモデルは対照的な損失だけで訓練されているので、CLIP-Pixels Only (CLIPPO)と呼ぶ。画像テキストのコントラスト学習と次文のコントラスト学習を併用することで、CLIPPOは自然言語理解タスクでうまく機能する。
論文参考訳（メタデータ） (2022-12-15T18:52:08Z)
Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文参考訳（メタデータ） (2022-10-17T17:57:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。