論文の概要: Learning Speech Representations with Variational Predictive Coding
- arxiv url: http://arxiv.org/abs/2601.00100v1
- Date: Wed, 31 Dec 2025 20:10:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.258507
- Title: Learning Speech Representations with Variational Predictive Coding
- Title(参考訳): 変分予測符号化による音声表現の学習
- Authors: Sung-Lin Yeh, Peter Bell, Hao Tang,
- Abstract要約: 本稿では,変分的視点による予測符号化が,HuBERTの目的の背景にある原理であることを示す。
HuBERTの目的に即時改善をもたらす2つの簡単な修正を示す。
- 参考スコア(独自算出の注目度): 18.188855841437388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite being the best known objective for learning speech representations, the HuBERT objective has not been further developed and improved. We argue that it is the lack of an underlying principle that stalls the development, and, in this paper, we show that predictive coding under a variational view is the principle behind the HuBERT objective. Due to its generality, our formulation provides opportunities to improve parameterization and optimization, and we show two simple modifications that bring immediate improvements to the HuBERT objective. In addition, the predictive coding formulation has tight connections to various other objectives, such as APC, CPC, wav2vec, and BEST-RQ. Empirically, the improvement in pre-training brings significant improvements to four downstream tasks: phone classification, f0 tracking, speaker recognition, and automatic speech recognition, highlighting the importance of the predictive coding interpretation.
- Abstract(参考訳): 言語表現を学習するための最もよく知られた目的であるにもかかわらず、HuBERTの目的は更なる発展と改善がなされていない。
本稿では,開発を停滞させる基本原理の欠如を論じ,変分的視点下での予測符号化がHuBERTの目的の背景にある原則であることを示す。
その一般化により,パラメータ化と最適化を改善する機会が得られ,HuBERTの目的に即時改善をもたらす2つの簡単な修正が示された。
さらに、予測符号化の定式化は、APC、CPC、wav2vec、BEST-RQといった他の様々な目的と密接な関係を持つ。
実証的に、事前学習の改善は、電話の分類、f0追跡、話者認識、自動音声認識の4つの下流タスクに大きな改善をもたらし、予測的符号化解釈の重要性を強調している。
関連論文リスト
- The Unanticipated Asymmetry Between Perceptual Optimization and Assessment [15.11427750828098]
画像品質評価(IQA)に優れる忠実度指標は知覚的最適化に必ずしも有効ではないことを示す。
また、識別器設計は、バニラやトランスフォーマーベースの代替品よりも、より忠実な詳細な再構築を提供するパッチレベルおよび畳み込みアーキテクチャによって、最適化を形作る上で決定的な役割を担っていることも示している。
論文 参考訳(メタデータ) (2025-09-25T08:08:26Z) - KARE-RAG: Knowledge-Aware Refinement and Enhancement for RAG [63.82127103851471]
Retrieval-Augmented Generation (RAG)は、大規模言語モデルがより広範な知識ソースにアクセスすることを可能にする。
ノイズの多いコンテンツを処理するために生成モデルの能力を向上させることは、ロバストなパフォーマンスに等しく重要であることを実証する。
本稿では,3つの重要なイノベーションを通じて知識利用を改善するKARE-RAGを提案する。
論文 参考訳(メタデータ) (2025-06-03T06:31:17Z) - The Pragmatic Mind of Machines: Tracing the Emergence of Pragmatic Competence in Large Language Models [6.187227278086245]
大規模言語モデル(LLM)は、不規則な解決や推論の理論を含む社会的知性に新たな能力を示す。
本研究では,異なる学習段階におけるLLMが話者意図を正確に推測できるかどうかを評価する。
プレトレーニング後, 教師付き微調整(SFT), 選好最適化の3段階にわたる22個のLDMを系統的に評価した。
論文 参考訳(メタデータ) (2025-05-24T04:24:59Z) - Beginning with You: Perceptual-Initialization Improves Vision-Language Representation and Alignment [2.3735961220736423]
視覚表現学習におけるパラダイムシフトである知覚初期化(PI)を導入する。
提案手法は,タスク固有の微調整を使わずに,ゼロショット性能が大幅に向上したことを示す。
私たちの研究は、人間の知覚から始まる「あなたとの交際」が、汎用的な視覚言語知能の強力な基盤を提供することを示している。
論文 参考訳(メタデータ) (2025-05-20T11:04:14Z) - Fine-Grained Verifiers: Preference Modeling as Next-token Prediction in Vision-Language Alignment [57.0121616203175]
本研究では,視覚言語アライメントを改善するための細粒度検証器として,モデル自身のビジュアルエンコーダを利用する新たな自己アライメント手法であるFiSAOを提案する。
ビジョンエンコーダからのトークンレベルのフィードバックを活用することで、FiSAOは視覚言語アライメントを大幅に改善する。
論文 参考訳(メタデータ) (2024-10-18T03:34:32Z) - Pre-training Feature Guided Diffusion Model for Speech Enhancement [37.88469730135598]
音声強調は、雑音環境下での音声の明瞭さと明瞭さを著しく向上させる。
本稿では,効率的な音声強調に適した事前学習機能誘導拡散モデルを提案する。
論文 参考訳(メタデータ) (2024-06-11T18:22:59Z) - E2S2: Encoding-Enhanced Sequence-to-Sequence Pretraining for Language
Understanding and Generation [95.49128988683191]
シークエンス・ツー・シークエンス(seq2seq)学習は、大規模事前学習言語モデルにおいて一般的な方法である。
本稿では,エンコーディング強化のseq2seq事前学習戦略,すなわちE2S2を提案する。
E2S2は、より効率的な自己教師付き情報をエンコーダに統合することで、Seq2seqモデルを改善する。
論文 参考訳(メタデータ) (2022-05-30T08:25:36Z) - Improved Speech Representations with Multi-Target Autoregressive
Predictive Coding [23.424410568555547]
我々は、将来のフレームを正確に予測できる隠された状態が、多くの下流タスクに有用な表現である、という仮説を拡張した。
本稿では、将来のフレーム予測タスクの一般化を改善するための正規化として機能する補助的目的を提案する。
論文 参考訳(メタデータ) (2020-04-11T01:09:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。