論文の概要: Understanding Self-Supervised Learning of Speech Representation via
Invariance and Redundancy Reduction
- arxiv url: http://arxiv.org/abs/2309.03619v1
- Date: Thu, 7 Sep 2023 10:23:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-08 13:29:40.139166
- Title: Understanding Self-Supervised Learning of Speech Representation via
Invariance and Redundancy Reduction
- Title(参考訳): 分散と冗長化による音声表現の自己教師付き学習理解
- Authors: Yusuf Brima, Ulf Krumnack, Simone Pika and Gunther Heidemann
- Abstract要約: 目的関数の選択は、自己教師付き学習から高品質な表現を生み出す上で不可欠である。
本稿では,Borlow Twins (BT) の目的の異なる定式化が,音声データに対する下流タスク性能に与える影響について検討する。
- 参考スコア(独自算出の注目度): 0.45060992929802207
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The choice of the objective function is crucial in emerging high-quality
representations from self-supervised learning. This paper investigates how
different formulations of the Barlow Twins (BT) objective impact downstream
task performance for speech data. We propose Modified Barlow Twins (MBT) with
normalized latents to enforce scale-invariance and evaluate on speaker
identification, gender recognition and keyword spotting tasks. Our results show
MBT improves representation generalization over original BT, especially when
fine-tuning with limited target data. This highlights the importance of
designing objectives that encourage invariant and transferable representations.
Our analysis provides insights into how the BT learning objective can be
tailored to produce speech representations that excel when adapted to new
downstream tasks. This study is an important step towards developing reusable
self-supervised speech representations.
- Abstract(参考訳): 目的関数の選択は、自己教師付き学習から高品質な表現を生み出す上で重要である。
本稿では,barlow twins (bt) の目的が音声データにおける下流タスク性能に与える影響について検討する。
そこで本研究では,話者識別,性別認識,キーワードスポッティングタスクにおいて,正規化潜伏子を用いた修正バーローツイン(MBT)を提案する。
その結果、mbtはオリジナルのbtよりも表現の一般化が向上することが示された。
これは不変かつ移動可能な表現を奨励する目的を設計することの重要性を強調している。
今回の分析は,bt学習目標が新たなダウンストリームタスクに適応した場合に優れた音声表現を生成するためにどのように調整されるかに関する洞察を提供する。
本研究は,再利用可能な自己教師あり音声表現を開発するための重要なステップである。
関連論文リスト
- Provably Transformers Harness Multi-Concept Word Semantics for Efficient In-Context Learning [53.685764040547625]
トランスフォーマーベースの大規模言語モデル(LLM)は、卓越した創造力と出現能力を示している。
この研究は、トランスフォーマーが単語のマルチコンセプトセマンティクスをどのように活用し、強力なICLと優れたアウト・オブ・ディストリビューションICL能力を実現するかを示すための数学的解析を提供する。
論文 参考訳(メタデータ) (2024-11-04T15:54:32Z) - Latent Causal Probing: A Formal Perspective on Probing with Causal Models of Data [3.376269351435396]
構造因果モデル(SCM)を用いた探索の形式的視点を開発する。
我々は,合成グリッドワールドナビゲーションタスクの文脈において,最近のLMの研究を拡張した。
我々の手法は、LMがテキストの根底にある潜在概念を誘発する能力を示す、堅牢な実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-07-18T17:59:27Z) - The Common Stability Mechanism behind most Self-Supervised Learning
Approaches [64.40701218561921]
自己指導型学習手法の安定性のメカニズムを説明するための枠組みを提供する。
我々は,BYOL,SWAV,SimSiam,Barlow Twins,DINOなどの非コントラスト技術であるSimCLRの動作メカニズムについて議論する。
私たちは異なる仮説を定式化し、Imagenet100データセットを使ってそれらをテストします。
論文 参考訳(メタデータ) (2024-02-22T20:36:24Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z) - Disentangled Representation Learning with Transmitted Information Bottleneck [57.22757813140418]
textbfDisTIB (textbfTransmitted textbfInformation textbfBottleneck for textbfDisd representation learning) は情報圧縮と保存のバランスを保った新しい目的である。
論文 参考訳(メタデータ) (2023-11-03T03:18:40Z) - Augment to Interpret: Unsupervised and Inherently Interpretable Graph
Embeddings [0.0]
本稿では,グラフ表現学習について検討し,意味論を保存したデータ拡張を学習し,解釈を生成できることを示す。
私たちがINGENIOUSと名付けた我々のフレームワークは、本質的に解釈可能な埋め込みを生成し、コストのかかるポストホック分析の必要性を排除します。
論文 参考訳(メタデータ) (2023-09-28T16:21:40Z) - ArCL: Enhancing Contrastive Learning with Augmentation-Robust
Representations [30.745749133759304]
我々は,自己教師付きコントラスト学習の伝達可能性を分析する理論的枠組みを開発する。
対照的な学習は、その伝達可能性を制限するような、ドメイン不変の機能を学ぶのに失敗することを示す。
これらの理論的知見に基づき、Augmentation-robust Contrastive Learning (ArCL) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-02T09:26:20Z) - Contrastive Distillation Is a Sample-Efficient Self-Supervised Loss
Policy for Transfer Learning [20.76863234714442]
本研究では,高い相互情報を持つ潜伏変数を示すコントラスト蒸留と呼ばれる自己監督的損失ポリシーを提案する。
本稿では,この手法が伝達学習の一般的な手法より優れていることを示すとともに,オンライン転送の計算処理をトレードオフする有用な設計軸を提案する。
論文 参考訳(メタデータ) (2022-12-21T20:43:46Z) - RELAX: Representation Learning Explainability [10.831313203043514]
本稿では、帰属に基づく表現の説明のための最初のアプローチであるRELAXを提案する。
ReLAXは、入力とマスクアウトされた自身のバージョンの間の表現空間における類似性を測定することで表現を説明する。
我々はRELAXの理論的解釈を提供し、教師なし学習を用いて訓練された特徴抽出器を新規に解析する。
論文 参考訳(メタデータ) (2021-12-19T14:51:31Z) - A Free Lunch from the Noise: Provable and Practical Exploration for
Representation Learning [55.048010996144036]
ある雑音仮定の下では、対応するマルコフ遷移作用素の線型スペクトル特性を自由な閉形式で得られることを示す。
本稿では,スペクトルダイナミクス埋め込み(SPEDE)を提案する。これはトレードオフを破り,雑音の構造を利用して表現学習のための楽観的な探索を完遂する。
論文 参考訳(メタデータ) (2021-11-22T19:24:57Z) - Interpretable Time-series Representation Learning With Multi-Level
Disentanglement [56.38489708031278]
Disentangle Time Series (DTS)は、シーケンシャルデータのための新しいDisentanglement Enhanceingフレームワークである。
DTSは時系列の解釈可能な表現として階層的意味概念を生成する。
DTSは、セマンティック概念の解釈性が高く、下流アプリケーションで優れたパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-05-17T22:02:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。