論文の概要: A Simple HMM with Self-Supervised Representations for Phone Segmentation
- arxiv url: http://arxiv.org/abs/2409.09646v1
- Date: Sun, 15 Sep 2024 07:44:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 19:58:08.805887
- Title: A Simple HMM with Self-Supervised Representations for Phone Segmentation
- Title(参考訳): 音声セグメンテーションのための自己教師付き表現付き簡易HMM
- Authors: Gene-Ping Yang, Hao Tang,
- Abstract要約: 我々は,メルスペクトルのピーク検出が,多くの自己監督的アプローチよりも強いベースラインであることを示す。
本稿では,電話セグメンテーションの境界における自己教師付き表現と特徴を用いた単純な隠れマルコフモデルを提案する。
- 参考スコア(独自算出の注目度): 10.28645132920404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the recent advance in self-supervised representations, unsupervised phonetic segmentation remains challenging. Most approaches focus on improving phonetic representations with self-supervised learning, with the hope that the improvement can transfer to phonetic segmentation. In this paper, contrary to recent approaches, we show that peak detection on Mel spectrograms is a strong baseline, better than many self-supervised approaches. Based on this finding, we propose a simple hidden Markov model that uses self-supervised representations and features at the boundaries for phone segmentation. Our results demonstrate consistent improvements over previous approaches, with a generalized formulation allowing versatile design adaptations.
- Abstract(参考訳): 近年の自己教師型表現の進歩にもかかわらず、教師なし音声のセグメンテーションは依然として困難である。
殆どのアプローチは、自己教師付き学習による音声表現の改善に重点を置いており、改善が音節分割に移行できることを期待している。
本稿では,近年のアプローチとは対照的に,メルスペクトルのピーク検出は,多くの自己監督的手法よりも強いベースラインであることを示す。
そこで本研究では,携帯電話のセグメンテーションのための境界における自己教師付き表現と特徴を用いた隠れマルコフモデルを提案する。
提案手法は, 従来手法よりも一貫した改良を図り, 汎用設計への適応を可能にする一般化された定式化を行った。
関連論文リスト
- Repurposing Stable Diffusion Attention for Training-Free Unsupervised Interactive Segmentation [1.878433493707693]
インタラクティブなポイントプロンプトベースの画像の最近の進歩は、高品質なセマンティックラベルを得るための手作業を大幅に削減する。
本稿では, 安定拡散の自己注意のみに基づく, 教師なし, トレーニング不要な新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-11-15T18:29:59Z) - ProMerge: Prompt and Merge for Unsupervised Instance Segmentation [4.297070083645049]
教師なしのインスタンスセグメンテーションは、人間のラベル付きデータに頼ることなく、イメージ内の異なるオブジェクトインスタンスをセグメントすることを目的としている。
最近の最先端のアプローチでは、自己教師機能を使用して画像をグラフとして表現し、一般化された固有値系を解き、前景マスクを生成する。
Prompt and Merge(ProMerge)を提案する。これは、セルフ教師付き視覚機能を利用して、パッチの初期グループ化を取得し、これらのセグメントに戦略的マージを適用する。
論文 参考訳(メタデータ) (2024-09-27T17:59:42Z) - iSeg: An Iterative Refinement-based Framework for Training-free Segmentation [85.58324416386375]
本稿では,自己注意マップを用いた横断注意マップの繰り返し精錬に関する実験的検討を行った。
トレーニング不要セグメンテーションのための効果的な反復改良フレームワークiSegを提案する。
提案したiSegは,mIoUの3.8%の絶対ゲインを達成している。
論文 参考訳(メタデータ) (2024-09-05T03:07:26Z) - Prompting Diffusion Representations for Cross-Domain Semantic
Segmentation [101.04326113360342]
拡散事前学習は、セマンティックセグメンテーションのための並外れた領域一般化結果を達成する。
本研究では,シーンプロンプトとプロンプトランダム化戦略を導入し,セグメンテーションヘッドを訓練する際に,ドメイン不変情報をさらに混乱させる。
論文 参考訳(メタデータ) (2023-07-05T09:28:25Z) - Semi-supervised learning made simple with self-supervised clustering [65.98152950607707]
自己教師付き学習モデルは、人間のアノテーションを必要とせずにリッチな視覚表現を学習することが示されている。
本稿では,クラスタリングに基づく自己教師付き手法を半教師付き学習者へと変換する,概念的に単純だが経験的に強力な手法を提案する。
論文 参考訳(メタデータ) (2023-06-13T01:09:18Z) - Self-supervised Speaker Diarization [19.111219197011355]
本研究では、話者ダイアリゼーションのための教師なしディープラーニングモデルを提案する。
話者埋め込みは、同一話者と推定される隣接セグメントのペアを使用して、自己教師付きで訓練されたエンコーダによって表現される。
論文 参考訳(メタデータ) (2022-04-08T16:27:14Z) - Activation Modulation and Recalibration Scheme for Weakly Supervised
Semantic Segmentation [24.08326440298189]
弱教師付きセマンティックセグメンテーションのための新しいアクティベーション変調と再校正手法を提案する。
PASCAL VOC 2012データセット上で,AMRが新たな最先端パフォーマンスを確立することを示す。
また,本手法はプラグアンドプレイであり,他の手法と組み合わせて性能向上を図ることが可能であることを実験により明らかにした。
論文 参考訳(メタデータ) (2021-12-16T16:26:14Z) - Self-supervised Text-independent Speaker Verification using Prototypical
Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。
自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文 参考訳(メタデータ) (2020-12-13T23:23:39Z) - Panoster: End-to-end Panoptic Segmentation of LiDAR Point Clouds [81.12016263972298]
我々は,LiDAR点雲のための提案不要なパノプティックセグメンテーション手法であるパノスターを提案する。
従来のアプローチとは異なり、Panosterでは、インスタンスを識別するための学習ベースのクラスタリングソリューションを組み込んだ、シンプルなフレームワークを提案している。
推論時に、これはクラスに依存しないセグメンテーションとして機能し、パノスターは高速で、精度の点で先行メソッドよりも優れている。
論文 参考訳(メタデータ) (2020-10-28T18:10:20Z) - Self-supervised Video Object Segmentation [76.83567326586162]
本研究の目的は、半教師付きビデオオブジェクトセグメンテーション(高密度トラッキング)の解決を目的とした自己教師付き表現学習である。
i) 従来の自己教師型アプローチを改善すること、(ii) オンライン適応モジュールによる自己教師型アプローチの強化により、空間的時間的不連続性によるトラッカーのドリフトを緩和すること、(iv) DAVIS-2017とYouTubeの自己教師型アプローチで最先端の結果を示すこと、などが提案されている。
論文 参考訳(メタデータ) (2020-06-22T17:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。