論文の概要: Contrastive prediction strategies for unsupervised segmentation and
categorization of phonemes and words
- arxiv url: http://arxiv.org/abs/2110.15909v1
- Date: Fri, 29 Oct 2021 16:55:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-01 15:31:27.363995
- Title: Contrastive prediction strategies for unsupervised segmentation and
categorization of phonemes and words
- Title(参考訳): 音素と単語の教師なしセグメンテーションと分類のためのコントラスト予測戦略
- Authors: Santiago Cuervo, Maciej Grabias, Jan Chorowski, Grzegorz Ciesielski,
Adrian {\L}a\'ncucki, Pawe{\l} Rychlikowski, Ricard Marxer
- Abstract要約: コントラスト予測符号化(CPC)に基づく自己教師あり学習法(SSL)における音素分類と音素分類と単語分割の性能について検討する。
実験の結果,既存のアルゴリズムでは分類性能とセグメンテーション性能のトレードオフがあることがわかった。
文脈構築ネットワークの利用は、分類タスクにおける優れたパフォーマンスに必要なものであり、学習された表現に時間的シフトを生じさせることでセグメンテーション性能を損なうと結論付けている。
- 参考スコア(独自算出の注目度): 9.986028797912788
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate the performance on phoneme categorization and phoneme and word
segmentation of several self-supervised learning (SSL) methods based on
Contrastive Predictive Coding (CPC). Our experiments show that with the
existing algorithms there is a trade off between categorization and
segmentation performance. We investigate the source of this conflict and
conclude that the use of context building networks, albeit necessary for
superior performance on categorization tasks, harms segmentation performance by
causing a temporal shift on the learned representations. Aiming to bridge this
gap, we take inspiration from the leading approach on segmentation, which
simultaneously models the speech signal at the frame and phoneme level, and
incorporate multi-level modelling into Aligned CPC (ACPC), a variation of CPC
which exhibits the best performance on categorization tasks. Our multi-level
ACPC (mACPC) improves in all categorization metrics and achieves
state-of-the-art performance in word segmentation.
- Abstract(参考訳): コントラスト予測符号化(Contrastive Predictive Coding, CPC)に基づく自己教師あり学習法(SSL)における音素分類と音素分類と単語分割の性能について検討を行った。
実験の結果,既存のアルゴリズムでは分類性能とセグメンテーション性能のトレードオフがあることがわかった。
本稿では,この対立の原因を調査し,学習表現に時間的シフトを生じさせることでセグメンテーション性能を損なう,分類タスクにおける優れた性能を実現するために必要なコンテキスト構築ネットワークの利用を結論付ける。
このギャップを埋めるために、フレームと音素レベルで音声信号を同時にモデル化するセグメンテーションの先進的なアプローチから着想を得、多レベルモデリングをCPCの変種であるAligned CPC(ACPC)に組み込む。
我々のマルチレベルACPC(mACPC)は、すべての分類基準を改善し、単語セグメンテーションにおける最先端のパフォーマンスを達成する。
関連論文リスト
- ClearCLIP: Decomposing CLIP Representations for Dense Vision-Language Inference [32.852004564832455]
我々はCLIPのアーキテクチャを再検討し、残余接続をセグメンテーション品質を劣化させるノイズの主源として同定する。
オープン語彙セマンティックセグメンテーションを強化するためにCLIPの表現を分解する新しいアプローチであるClearCLIPを提案する。
論文 参考訳(メタデータ) (2024-07-17T09:52:20Z) - Visual Prompt Selection for In-Context Learning Segmentation [77.15684360470152]
本稿では,サンプル選択戦略の再考と改善に焦点をあてる。
まず、ICLに基づくセグメンテーションモデルが異なる文脈に敏感であることを示す。
さらに、経験的証拠は、文脈的プロンプトの多様性がセグメンテーションを導く上で重要な役割を担っていることを示している。
論文 参考訳(メタデータ) (2024-07-14T15:02:54Z) - Multi-Grained Cross-modal Alignment for Learning Open-vocabulary
Semantic Segmentation from Text Supervision [23.931443799102663]
我々は,高密度アノテーションを使わずに粒度ギャップを埋めるために,MGCA(Multi-Grained Cross-Modal Alignment)フレームワークを導入する。
具体的には、MGCAは画像とテキストのペアに基づいて擬似多言語意味対応を構築する。
提案手法は最先端の手法よりも大幅に進歩し,その有効性と効率性を実証する。
論文 参考訳(メタデータ) (2024-03-06T13:43:36Z) - Open-Vocabulary Segmentation with Semantic-Assisted Calibration [73.39366775301382]
オープンボキャブラリセグメンテーション(OVS)は,CLIPの文脈に先行して,語彙内およびドメインバイアスの埋め込み空間を校正することで研究される。
オープン語彙セグメンテーションベンチマークにおける最先端性能を実現するために,セマンティック・アシブ・キャリブレーション・ネットワーク(SCAN)を提案する。
論文 参考訳(メタデータ) (2023-12-07T07:00:09Z) - Harmonizing Base and Novel Classes: A Class-Contrastive Approach for
Generalized Few-Shot Segmentation [78.74340676536441]
本稿では,プロトタイプの更新を規制し,プロトタイプ間の距離を広くするために,クラス間のコントラスト損失とクラス関係損失を提案する。
提案手法は,PASCAL VOC および MS COCO データセット上での一般化された小ショットセグメンテーションタスクに対して,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-24T00:30:25Z) - CAT-Seg: Cost Aggregation for Open-Vocabulary Semantic Segmentation [56.58365347854647]
私たちは、視覚言語基盤モデル、特にCLIPを適応するためのコストベースの新しいアプローチを導入します。
エンコーダの微調整により,CLIPをセグメント化,未確認のクラスに適応させる手法を提案する。
論文 参考訳(メタデータ) (2023-03-21T12:28:21Z) - Global Knowledge Calibration for Fast Open-Vocabulary Segmentation [124.74256749281625]
本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。
また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。
提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
論文 参考訳(メタデータ) (2023-03-16T09:51:41Z) - DisCoDisCo at the DISRPT2021 Shared Task: A System for Discourse
Segmentation, Classification, and Connective Detection [4.371388370559826]
我々のシステムはDisCoDisCoと呼ばれ、コンテキスト化された単語の埋め込みを手作りの機能で強化する。
関係分類の結果は、新しい2021ベンチマークで強い性能を示している。
複数の事前学習されたトランスフォーマーベース言語モデルの部分評価は、Next Sentence Predictionタスクで事前学習されたモデルが関係分類に最適であることを示している。
論文 参考訳(メタデータ) (2021-09-20T18:11:05Z) - Segmental Contrastive Predictive Coding for Unsupervised Word
Segmentation [33.35220574193796]
本稿では,信号構造を音素レベルでより高レベルにモデル化できるSCPC( segmental contrastive predictive coding)フレームワークを提案する。
微分可能な境界検出器は可変長のセグメントを見つけ、NCEを介してセグメントエンコーダを最適化する。
本稿では,TIMITおよびBuckeyeデータセットにおける既存の音素・単語分割手法より,単一モデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2021-06-03T23:12:05Z) - A comparison of self-supervised speech representations as input features
for unsupervised acoustic word embeddings [32.59716743279858]
私たちは、短い時間枠レベルで表現学習を見ます。
最近のアプローチには、自己監視型予測符号化および対応オートエンコーダ(CAE)モデルが含まれる。
コントラスト予測符号化(CPC)、オートレグレッシブ予測符号化、CAEなどのフレームレベルの特徴を従来のMFCCと比較します。
論文 参考訳(メタデータ) (2020-12-14T10:17:25Z) - Dynamic Divide-and-Conquer Adversarial Training for Robust Semantic
Segmentation [79.42338812621874]
敵のトレーニングは、敵の摂動に対するディープニューラルネットワークの堅牢性を改善することを約束している。
本研究は, 敵とクリーンの両方のサンプルに対して良好に動作可能な, 汎用的な敵の訓練手順を定式化する。
本稿では,防衛効果を高めるための動的分割対対人訓練(DDC-AT)戦略を提案する。
論文 参考訳(メタデータ) (2020-03-14T05:06:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。