論文の概要: VARAN: Variational Inference for Self-Supervised Speech Models Fine-Tuning on Downstream Tasks
- arxiv url: http://arxiv.org/abs/2508.12061v1
- Date: Sat, 16 Aug 2025 14:26:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.547798
- Title: VARAN: Variational Inference for Self-Supervised Speech Models Fine-Tuning on Downstream Tasks
- Title(参考訳): VARAN:下流タスクを微調整した自己教師付き音声モデルの変分推論
- Authors: Daria Diatlova, Nikita Balagansky, Alexander Varlamov, Egor Spirin,
- Abstract要約: 本稿では,レイヤアグリゲーションを個々の入力に動的に調整するVARANを提案する。
VARANは入力に基づいて層の特徴を適応的に優先順位付けする。
- 参考スコア(独自算出の注目度): 43.690582061831954
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conventional methods for aggregating layers in fine-tuned self-supervised speech models, such as using the final layer or weighted sum, suffer from information bottlenecks and static feature weighting for all dataset examples. We propose VARAN, a framework that dynamically tailors layer aggregation to individual inputs. By employing layer-specialized probing heads and data-dependent weighting, VARAN adaptively prioritizes layer's features based on input. Evaluations on automatic speech recognition and speech emotion recognition tasks demonstrate VARAN's superior performance, particularly when using the LoRA fine-tuning technique. The framework resolves the trade-off between preserving layer-specific information and enabling flexible feature utilization, advancing efficient adaptation of self-supervised speech representations.
- Abstract(参考訳): 最終層や重み付け和など、微調整された自己教師付き音声モデルでレイヤーを集約する従来の方法は、すべてのデータセットの例において、情報のボトルネックや静的な特徴重み付けに悩まされている。
本稿では,レイヤアグリゲーションを個々の入力に動的に調整するVARANを提案する。
層特異的なプローブヘッドとデータ依存重み付けを用いることで、VARANは入力に基づいて層の特徴を適応的に優先順位付けする。
自動音声認識と音声感情認識タスクの評価はVARANの優れた性能を示し、特にLoRAファインチューニング技術を用いている。
このフレームワークは、レイヤ固有の情報を保存することとフレキシブルな特徴利用を可能にすることのトレードオフを解消し、自己教師付き音声表現の適応を効果的に進める。
関連論文リスト
- Self-supervised Latent Space Optimization with Nebula Variational Coding [87.20343320266215]
本稿では,クラスタ化埋め込みに繋がる変分推論モデルを提案する。
textbfnebula anchorsと呼ばれる潜伏空間に新たな変数を導入し、トレーニング中に潜伏変数がクラスタを形成するように誘導する。
各潜在機能は最も近いアンカーでラベル付けできるため、クラスタ間の分離をより明確にするために、自己教師付き方法でメートル法学習を適用することも提案する。
論文 参考訳(メタデータ) (2025-06-02T08:13:32Z) - Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition [58.79807861739438]
既存の歩行者認識アルゴリズム(PAR)は主に静的画像に基づいて開発されている。
本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
論文 参考訳(メタデータ) (2024-04-27T14:43:32Z) - Unified Low-Resource Sequence Labeling by Sample-Aware Dynamic Sparse
Finetuning [24.765911297156855]
FISH-DIPは、少数のパラメータに選択的にフォーカスする、サンプル対応のダイナミックスパース微調整戦略である。
FISH-DIPは、最大40%の性能改善を提供する低リソース設定でモデルをスムーズに最適化できることを実証した。
論文 参考訳(メタデータ) (2023-11-07T06:19:37Z) - Trading Information between Latents in Hierarchical Variational
Autoencoders [8.122270502556374]
変分オートエンコーダ(VAE)はもともと確率的生成モデルとして動機付けられ、ベイズ推定を近似的に行う。
$beta$-VAEsの提案はこの解釈を破り、VAEを生成モデリング以上のアプリケーションドメインに一般化する。
推論モデルの一般的なクラスを特定し、各レイヤからのコントリビューションにレートを分割し、独立に調整することができる。
論文 参考訳(メタデータ) (2023-02-09T18:56:11Z) - Comparative layer-wise analysis of self-supervised speech models [29.258085176788097]
標準相関解析(CCA)に基づく軽量解析ツールを用いて、各層に符号化された音響・音声・単語レベルの特性を測定する。
これらの特性は、モデルによって異なる層間で進化し、その変動は事前学習対象の選択に関係している。
CCAのトレンドは、下流タスクの関心層を選択するための信頼性の高いガイダンスを提供し、シングルレイヤのパフォーマンスがすべてのレイヤで一致または改善されることに気付き、事前学習されたモデルをより効率的に使用するための意味を示唆している。
論文 参考訳(メタデータ) (2022-11-08T00:59:05Z) - Attention-based conditioning methods using variable frame rate for
style-robust speaker verification [21.607777746331998]
そこで本研究では,テキスト非依存話者検証において,発話スタイルの変動に頑健な話者埋め込みを抽出する手法を提案する。
自己アテンション層の外部条件ベクトルとして,エントロピーに基づく可変フレームレートベクトルを提案する。
論文 参考訳(メタデータ) (2022-06-28T01:14:09Z) - Hierarchical Variational Memory for Few-shot Learning Across Domains [120.87679627651153]
本稿では,プロトタイプの各レベルが階層メモリから対応する情報を取得する階層型プロトタイプモデルを提案する。
このモデルには、ドメインシフトの状況が要求される場合、異なるセマンティックレベルの機能を柔軟に依存する能力が備わっている。
モデルにおける各コンポーネントの有効性を示すために、徹底的なアブレーション研究を行っている。
論文 参考訳(メタデータ) (2021-12-15T15:01:29Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - Self-Attention Generative Adversarial Network for Speech Enhancement [37.14341228976058]
音声強調のための既存のGAN(Generative Adversarial Network)は、畳み込み操作のみに依存している。
音声強調GANの畳み込み層, 畳み込み層, 畳み込み層, 畳み込み層と、非局所的な注意から適応した自己注意層を提案する。
実験の結果,SEGANに自己注意を導入することで,改善性能の客観的評価指標が一貫した改善につながることが示された。
論文 参考訳(メタデータ) (2020-10-18T22:59:07Z) - Self-Supervised Tuning for Few-Shot Segmentation [82.32143982269892]
Few-shotのセグメンテーションは、アノテートされたサンプルがほとんどない各画像ピクセルにカテゴリラベルを割り当てることを目的としている。
既存のメタラーニング手法では, 画像から抽出した視覚的特徴を埋め込み空間に埋め込むと, カテゴリー別識別記述子の生成に失敗する傾向にある。
本稿では,複数のエピソードにまたがる潜在特徴の分布を,自己分割方式に基づいて動的に調整する適応型フレームワークチューニングを提案する。
論文 参考訳(メタデータ) (2020-04-12T03:53:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。