Fugu-MT 論文翻訳(概要): Interface Design for Self-Supervised Speech Models

論文の概要: Interface Design for Self-Supervised Speech Models

arxiv url: http://arxiv.org/abs/2406.12209v1
Date: Tue, 18 Jun 2024 02:13:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-19 23:08:33.406397
Title: Interface Design for Self-Supervised Speech Models
Title（参考訳）: 自己教師付き音声モデルのインタフェース設計
Authors: Yi-Jen Shih, David Harwath,
Abstract要約: 我々は、上流と下流を結ぶインターフェースを提案することにより、SSLモデル利用のための一般的なフレームワークを拡張します。上流モデルの深さと対数的にスケールする畳み込みインタフェースは、他の多くのインタフェース設計よりも一貫して優れていることを示す。
参考スコア（独自算出の注目度）: 19.580382450315206
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Self-supervised speech (SSL) models have recently become widely adopted for many downstream speech processing tasks. The general usage pattern is to employ SSL models as feature extractors, and then train a downstream prediction head to solve a specific task. However, different layers of SSL models have been shown to capture different types of information, and the methods of combining them are not well studied. To this end, we extend the general framework for SSL model utilization by proposing the interface that connects the upstream and downstream. Under this view, the dominant technique of combining features via a layerwise weighted sum can be regarded as a specific interface. We propose several alternative interface designs and demonstrate that the weighted sum interface is suboptimal for many tasks. In particular, we show that a convolutional interface whose depth scales logarithmically with the depth of the upstream model consistently outperforms many other interface designs.
Abstract（参考訳）: 近年,多くのダウンストリーム音声処理タスクにおいて,自己教師付き音声(SSL)モデルが広く採用されている。一般的な利用パターンは、SSLモデルを特徴抽出器として使用し、ダウンストリーム予測ヘッドをトレーニングして特定のタスクを解決することである。しかし、SSLモデルの異なるレイヤが異なるタイプの情報をキャプチャできることが示されており、それらを組み合わせる方法は十分に研究されていない。この目的のために、上流と下流を結ぶインターフェースを提案することにより、SSLモデル利用のための一般的なフレームワークを拡張します。この観点では、階層的に重み付けされた和によって特徴を組み合わせるという支配的な手法は、特定のインターフェースと見なすことができる。いくつかの代替インターフェースの設計を提案し、重み付けされた和インタフェースが多くのタスクに最適であることを示す。特に、上流モデルの深さと対数的にスケールする畳み込みインタフェースが、他の多くのインタフェース設計より一貫して優れていることを示す。

関連論文リスト

Optimizing Speech Multi-View Feature Fusion through Conditional Computation [51.23624575321469]
自己教師付き学習(SSL)機能は、軽量で多目的な多視点音声表現を提供する。 SSLは、FBanksのような従来のスペクトル機能とアップデートの方向で競合する。本稿では,条件計算に基づく新しい一般化された特徴融合フレームワークを提案する。
論文参考訳（メタデータ） (2025-01-14T12:12:06Z)
Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文参考訳（メタデータ） (2024-09-02T22:35:03Z)
Envisioning Class Entity Reasoning by Large Language Models for Few-shot Learning [13.68867780184022]
少ないショット学習は、限られた数のビジュアルサンプルを使用して新しい概念を認識することを目的としている。我々のフレームワークは,Large Language Models(LLMs)から抽出した抽象クラスセマンティクスと具体的なクラスエンティティの両方を組み込んでいる。難易度の高いワンショット設定では、ResNet-12のバックボーンを利用して、第2の競争相手に比べて平均1.95%の改善を実現しています。
論文参考訳（メタデータ） (2024-08-22T15:10:20Z)
FUSE-ing Language Models: Zero-Shot Adapter Discovery for Prompt Optimization Across Tokenizers [55.2480439325792]
FUSEは、あるモデルのテキスト埋め込み空間から別のモデルへのマッピングを行うアダプタ層を、異なるトークン化器にまたがっても近似するアプローチである。画像キャプションと感情に基づく画像キャプションのための視覚言語モデルと因果言語モデルに対する多目的最適化によるアプローチの有効性を示す。
論文参考訳（メタデータ） (2024-08-09T02:16:37Z)
Few-Shot Medical Image Segmentation with High-Fidelity Prototypes [38.073371773707514]
本稿では,オブジェクトフォアグラウンドと背景を包括的に表現する高忠実度プロトタイプを構築するための,DSPNet(Detail Self-Refined Prototype Network)を提案する。得られた詳細セマンティクスを維持しつつグローバルなセマンティクスを構築するために,マルチモーダル構造をクラスタリングでモデル化し,それぞれをチャネル的に融合させることにより,前景のプロトタイプを学習する。
論文参考訳（メタデータ） (2024-06-26T05:06:14Z)
Concrete Subspace Learning based Interference Elimination for Multi-task Model Fusion [86.6191592951269]
一般的な事前訓練された大規模モデルから微調整されたマージングモデルは、様々なタスクに特化しているが、様々なタスクでうまく機能するマルチタスクモデルを構築するための安価でスケーラブルな戦略として実証されている。本稿では、共通低次元部分空間を同定し、その共有情報トラック干渉問題を性能を犠牲にすることなく利用するための連続緩和(Concrete)部分空間学習法を提案する。
論文参考訳（メタデータ） (2023-12-11T07:24:54Z)
Language Models are General-Purpose Interfaces [109.45478241369655]
本稿では,様々な基礎モデルに対する汎用インタフェースとして言語モデルを提案する。事前訓練されたエンコーダのコレクションは、様々なモダリティ(ビジョンや言語など)を知覚するインタフェースとモジュールエンコーダを協調的に事前学習するための半因果言語モデリング手法を提案する。
論文参考訳（メタデータ） (2022-06-13T17:34:22Z)
Decoupled Multi-task Learning with Cyclical Self-Regulation for Face Parsing [71.19528222206088]
顔解析のための周期的自己統制型デカップリング型マルチタスク学習を提案する。具体的には、DML-CSRは、顔解析、バイナリエッジ、カテゴリエッジ検出を含むマルチタスクモデルを設計する。提案手法は,Helen,CelebA-HQ,LapaMaskのデータセット上での最先端性能を実現する。
論文参考訳（メタデータ） (2022-03-28T02:12:30Z)
Crowd Counting via Hierarchical Scale Recalibration Network [61.09833400167511]
本稿では,群集カウントの課題に取り組むために,階層型大規模校正ネットワーク(HSRNet)を提案する。 HSRNetは、リッチなコンテキスト依存をモデル化し、複数のスケール関連情報を再検討する。提案手法は,様々なノイズを選択的に無視し,適切な群集スケールに自動的に焦点を合わせることができる。
論文参考訳（メタデータ） (2020-03-07T10:06:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。