論文の概要: Understanding Self-Supervised Learning of Speech Representation via
Invariance and Redundancy Reduction
- arxiv url: http://arxiv.org/abs/2309.03619v1
- Date: Thu, 7 Sep 2023 10:23:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-08 13:29:40.139166
- Title: Understanding Self-Supervised Learning of Speech Representation via
Invariance and Redundancy Reduction
- Title(参考訳): 分散と冗長化による音声表現の自己教師付き学習理解
- Authors: Yusuf Brima, Ulf Krumnack, Simone Pika and Gunther Heidemann
- Abstract要約: 目的関数の選択は、自己教師付き学習から高品質な表現を生み出す上で不可欠である。
本稿では,Borlow Twins (BT) の目的の異なる定式化が,音声データに対する下流タスク性能に与える影響について検討する。
- 参考スコア(独自算出の注目度): 0.45060992929802207
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The choice of the objective function is crucial in emerging high-quality
representations from self-supervised learning. This paper investigates how
different formulations of the Barlow Twins (BT) objective impact downstream
task performance for speech data. We propose Modified Barlow Twins (MBT) with
normalized latents to enforce scale-invariance and evaluate on speaker
identification, gender recognition and keyword spotting tasks. Our results show
MBT improves representation generalization over original BT, especially when
fine-tuning with limited target data. This highlights the importance of
designing objectives that encourage invariant and transferable representations.
Our analysis provides insights into how the BT learning objective can be
tailored to produce speech representations that excel when adapted to new
downstream tasks. This study is an important step towards developing reusable
self-supervised speech representations.
- Abstract(参考訳): 目的関数の選択は、自己教師付き学習から高品質な表現を生み出す上で重要である。
本稿では,barlow twins (bt) の目的が音声データにおける下流タスク性能に与える影響について検討する。
そこで本研究では,話者識別,性別認識,キーワードスポッティングタスクにおいて,正規化潜伏子を用いた修正バーローツイン(MBT)を提案する。
その結果、mbtはオリジナルのbtよりも表現の一般化が向上することが示された。
これは不変かつ移動可能な表現を奨励する目的を設計することの重要性を強調している。
今回の分析は,bt学習目標が新たなダウンストリームタスクに適応した場合に優れた音声表現を生成するためにどのように調整されるかに関する洞察を提供する。
本研究は,再利用可能な自己教師あり音声表現を開発するための重要なステップである。
関連論文リスト
- The Common Stability Mechanism behind most Self-Supervised Learning
Approaches [64.40701218561921]
自己指導型学習手法の安定性のメカニズムを説明するための枠組みを提供する。
我々は,BYOL,SWAV,SimSiam,Barlow Twins,DINOなどの非コントラスト技術であるSimCLRの動作メカニズムについて議論する。
私たちは異なる仮説を定式化し、Imagenet100データセットを使ってそれらをテストします。
論文 参考訳(メタデータ) (2024-02-22T20:36:24Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z) - Disentangled Representation Learning with Transmitted Information
Bottleneck [73.0553263960709]
textbfDisTIB (textbfTransmitted textbfInformation textbfBottleneck for textbfDisd representation learning) は情報圧縮と保存のバランスを保った新しい目的である。
論文 参考訳(メタデータ) (2023-11-03T03:18:40Z) - Augment to Interpret: Unsupervised and Inherently Interpretable Graph
Embeddings [0.0]
本稿では,グラフ表現学習について検討し,意味論を保存したデータ拡張を学習し,解釈を生成できることを示す。
私たちがINGENIOUSと名付けた我々のフレームワークは、本質的に解釈可能な埋め込みを生成し、コストのかかるポストホック分析の必要性を排除します。
論文 参考訳(メタデータ) (2023-09-28T16:21:40Z) - ArCL: Enhancing Contrastive Learning with Augmentation-Robust
Representations [30.745749133759304]
我々は,自己教師付きコントラスト学習の伝達可能性を分析する理論的枠組みを開発する。
対照的な学習は、その伝達可能性を制限するような、ドメイン不変の機能を学ぶのに失敗することを示す。
これらの理論的知見に基づき、Augmentation-robust Contrastive Learning (ArCL) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-02T09:26:20Z) - Contrastive Distillation Is a Sample-Efficient Self-Supervised Loss
Policy for Transfer Learning [20.76863234714442]
本研究では,高い相互情報を持つ潜伏変数を示すコントラスト蒸留と呼ばれる自己監督的損失ポリシーを提案する。
本稿では,この手法が伝達学習の一般的な手法より優れていることを示すとともに,オンライン転送の計算処理をトレードオフする有用な設計軸を提案する。
論文 参考訳(メタデータ) (2022-12-21T20:43:46Z) - RELAX: Representation Learning Explainability [10.831313203043514]
本稿では、帰属に基づく表現の説明のための最初のアプローチであるRELAXを提案する。
ReLAXは、入力とマスクアウトされた自身のバージョンの間の表現空間における類似性を測定することで表現を説明する。
我々はRELAXの理論的解釈を提供し、教師なし学習を用いて訓練された特徴抽出器を新規に解析する。
論文 参考訳(メタデータ) (2021-12-19T14:51:31Z) - A Free Lunch from the Noise: Provable and Practical Exploration for
Representation Learning [55.048010996144036]
ある雑音仮定の下では、対応するマルコフ遷移作用素の線型スペクトル特性を自由な閉形式で得られることを示す。
本稿では,スペクトルダイナミクス埋め込み(SPEDE)を提案する。これはトレードオフを破り,雑音の構造を利用して表現学習のための楽観的な探索を完遂する。
論文 参考訳(メタデータ) (2021-11-22T19:24:57Z) - Interpretable Time-series Representation Learning With Multi-Level
Disentanglement [56.38489708031278]
Disentangle Time Series (DTS)は、シーケンシャルデータのための新しいDisentanglement Enhanceingフレームワークである。
DTSは時系列の解釈可能な表現として階層的意味概念を生成する。
DTSは、セマンティック概念の解釈性が高く、下流アプリケーションで優れたパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-05-17T22:02:24Z) - Aggregative Self-Supervised Feature Learning from a Limited Sample [12.555160911451688]
自己教師付き学習特徴の頑健性を高めるために,様々な形態の相補性の観点から2つのアグリゲーション戦略を提案する。
限られたデータシナリオ下での2次元自然画像および3次元医用画像分類タスクの実験により,提案手法が分類精度を向上できることが確認された。
論文 参考訳(メタデータ) (2020-12-14T12:49:37Z) - Understanding Self-supervised Learning with Dual Deep Networks [74.92916579635336]
本稿では,2組の深層ReLUネットワークを用いたコントラスト型自己教師学習(SSL)手法を理解するための新しい枠組みを提案する。
種々の損失関数を持つSimCLRの各SGD更新において、各層の重みは共分散演算子によって更新されることを示す。
共分散演算子の役割と、そのようなプロセスでどのような特徴が学習されるかをさらに研究するために、我々は、階層的潜在木モデル(HLTM)を用いて、データ生成および増大過程をモデル化する。
論文 参考訳(メタデータ) (2020-10-01T17:51:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。