Fugu-MT 論文翻訳(概要): Continual Contrastive Spoken Language Understanding

論文の概要: Continual Contrastive Spoken Language Understanding

arxiv url: http://arxiv.org/abs/2310.02699v3
Date: Tue, 4 Jun 2024 09:43:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-06 14:16:48.395305
Title: Continual Contrastive Spoken Language Understanding
Title（参考訳）: 連続したコントラスト音声言語理解
Authors: Umberto Cappellazzo, Enrico Fini, Muqiao Yang, Daniele Falavigna, Alessio Brutti, Bhiksha Raj,
Abstract要約: COCONUTは、経験リプレイとコントラスト学習の組み合わせに依存するクラスインクリメンタルラーニング(CIL)手法である。我々は,COCONUTをデコーダ側で動作するメソッドと組み合わせることで,さらなるメトリクス改善を実現することを示す。
参考スコア（独自算出の注目度）: 33.09005399967931
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently, neural networks have shown impressive progress across diverse fields, with speech processing being no exception. However, recent breakthroughs in this area require extensive offline training using large datasets and tremendous computing resources. Unfortunately, these models struggle to retain their previously acquired knowledge when learning new tasks continually, and retraining from scratch is almost always impractical. In this paper, we investigate the problem of learning sequence-to-sequence models for spoken language understanding in a class-incremental learning (CIL) setting and we propose COCONUT, a CIL method that relies on the combination of experience replay and contrastive learning. Through a modified version of the standard supervised contrastive loss applied only to the rehearsal samples, COCONUT preserves the learned representations by pulling closer samples from the same class and pushing away the others. Moreover, we leverage a multimodal contrastive loss that helps the model learn more discriminative representations of the new data by aligning audio and text features. We also investigate different contrastive designs to combine the strengths of the contrastive loss with teacher-student architectures used for distillation. Experiments on two established SLU datasets reveal the effectiveness of our proposed approach and significant improvements over the baselines. We also show that COCONUT can be combined with methods that operate on the decoder side of the model, resulting in further metrics improvements.
Abstract（参考訳）: 近年、ニューラルネットワークは様々な分野において顕著な進歩を見せており、音声処理は例外ではない。しかし、この分野における最近のブレークスルーは、大規模なデータセットと膨大なコンピューティングリソースを使用した広範なオフライントレーニングを必要とする。残念なことに、これらのモデルは、新しいタスクを継続的に学習する際に、以前取得した知識を維持するのに苦労している。本稿では,クラスインクリメンタルラーニング(CIL)設定における音声言語理解のためのシーケンス・ツー・シーケンス学習モデルの問題点を考察し,経験的リプレイとコントラスト学習の組み合わせに依存するCIL手法であるCOCONUTを提案する。 COCONUTは、リハーサルサンプルのみに適用された標準的な教師付きコントラスト損失の修正版を通じて、同じクラスからより近いサンプルを引き出し、他のクラスをプッシュすることで、学習された表現を保存する。さらに,音声とテキストの特徴を整列させることにより,モデルが新たなデータの識別的表現をより学習するのに役立つマルチモーダル・コントラッシブ・ロスを利用する。また, 比較的損失の強さと, 蒸留に使用する教師・学生アーキテクチャを組み合わせるために, 異なるコントラスト的設計について検討した。確立された2つのSLUデータセットに対する実験により,提案手法の有効性とベースラインに対する大幅な改善が示された。また,COCONUTをデコーダ側で動作させるメソッドと組み合わせることで,さらなるメトリクス改善が期待できることを示す。

関連論文リスト

TSVC:Tripartite Learning with Semantic Variation Consistency for Robust Image-Text Retrieval [11.874979105806243]
クロスモーダル検索は意味的関連性を通して異なるモダリティの下でデータをマップする。既存のアプローチでは、データペアが適切に整合しており、広く存在するアノテーションノイズを無視していると暗黙的に仮定している。本稿では,画像テキスト検索のための意味変化一貫性(TSVC)を用いた三部学習を提案する。
論文参考訳（メタデータ） (2025-01-19T04:05:08Z)
Multi-Stage Knowledge Integration of Vision-Language Models for Continual Learning [79.46570165281084]
蒸留法における人間の学習過程をエミュレートするマルチステージ知識統合ネットワーク(MulKI)を提案する。 Mulkiは、イデオロギーの排除、新しいイデオロギーの追加、イデオロギーの排除、コネクティクスの作りという4つの段階を通じてこれを達成している。提案手法は,下流タスク間の連続学習をサポートしながら,ゼロショット能力の維持における大幅な改善を示す。
論文参考訳（メタデータ） (2024-11-11T07:36:19Z)
Reducing catastrophic forgetting of incremental learning in the absence of rehearsal memory with task-specific token [0.6144680854063939]
ディープラーニングモデルは、新しいデータを継続的に学習する際に破滅的な忘れを見せる。本稿では,従来のデータを保存することなく,過去の知識を保存できる新しい手法を提案する。この方法は視覚変換器のアーキテクチャにインスパイアされ、各タスクの圧縮された知識をカプセル化できるユニークなトークンを使用する。
論文参考訳（メタデータ） (2024-11-06T16:13:50Z)
Contrastive Augmentation: An Unsupervised Learning Approach for Keyword Spotting in Speech Technology [4.080686348274667]
教師なしコントラスト学習と拡張一意的手法を組み合わせた新しい手法を提案する。我々の方法では、ニューラルネットワークがラベルのないデータセットでトレーニングすることができ、下流タスクのパフォーマンスが向上する可能性がある。本稿では,ボトルネック層の特徴と音声再構成情報との類似性を利用した音声強化に基づく教師なし学習手法を提案する。
論文参考訳（メタデータ） (2024-08-31T05:40:37Z)
Contrastive Continual Learning with Importance Sampling and Prototype-Instance Relation Distillation [14.25441464051506]
本稿では,従来のデータ分布を復元し,知識の保存を目的としたコントラスト連続学習(Contrastive Continual Learning via Importance Smpling, CCLIS)を提案する。また,プロトタイプとサンプル表現の関係を維持する技術であるPRD(Prototype-instance Relation Distillation)の損失について述べる。
論文参考訳（メタデータ） (2024-03-07T15:47:52Z)
Enhancing Consistency and Mitigating Bias: A Data Replay Approach for Incremental Learning [100.7407460674153]
ディープラーニングシステムは、一連のタスクから学ぶとき、破滅的な忘れがちだ。問題を緩和するため、新しいタスクを学ぶ際に経験豊富なタスクのデータを再生する手法が提案されている。しかし、メモリ制約やデータプライバシーの問題を考慮すると、実際には期待できない。代替として、分類モデルからサンプルを反転させることにより、データフリーなデータ再生法を提案する。
論文参考訳（メタデータ） (2024-01-12T12:51:12Z)
Mitigating Forgetting in Online Continual Learning via Contrasting Semantically Distinct Augmentations [22.289830907729705]
オンライン連続学習(OCL)は、非定常データストリームからモデル学習を可能とし、新たな知識を継続的に獲得し、学習した知識を維持することを目的としている。主な課題は、"破滅的な忘れる"問題、すなわち、新しい知識を学習しながら学習した知識を十分に記憶できないことにある。
論文参考訳（メタデータ） (2022-11-10T05:29:43Z)
Generative Negative Text Replay for Continual Vision-Language Pretraining [95.2784858069843]
視覚言語による事前学習が近年注目を集めている。大量のデータは、通常ストリーミング形式で収集される。本稿では,画像とテキスト間のマルチモーダルな知識蒸留手法を提案する。
論文参考訳（メタデータ） (2022-10-31T13:42:21Z)
Contrastive Learning with Boosted Memorization [36.957895270908324]
自己教師付き学習は、視覚的およびテキスト的データの表現学習において大きな成功を収めた。近年の自己指導型長期学習の試行は、損失視点やモデル視点の再バランスによって行われる。本稿では,ラベルを意識しないコンテキストにおける長期学習を強化するために,新しいBCL法を提案する。
論文参考訳（メタデータ） (2022-05-25T11:54:22Z)
Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文参考訳（メタデータ） (2021-09-24T07:20:13Z)
Active Learning for Sequence Tagging with Deep Pre-trained Models and Bayesian Uncertainty Estimates [52.164757178369804]
自然言語処理のためのトランスファーラーニングとアクティブラーニングの最近の進歩は、必要なアノテーション予算を大幅に削減する可能性を開く。我々は,様々なベイズ不確実性推定手法とモンテカルロドロップアウトオプションの実験的研究を,アクティブ学習フレームワークで実施する。また, 能動学習中にインスタンスを取得するためには, 完全サイズのトランスフォーマーを蒸留版に置き換えることにより, 計算性能が向上することを示した。
論文参考訳（メタデータ） (2021-01-20T13:59:25Z)
Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。私たちのフレームワークは、サンプル間の関係をよく保存します。サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文参考訳（メタデータ） (2020-07-11T10:57:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。