Fugu-MT 論文翻訳(概要): Continual Learning for Encoder-only Language Models via a Discrete Key-Value Bottleneck

論文の概要: Continual Learning for Encoder-only Language Models via a Discrete Key-Value Bottleneck

arxiv url: http://arxiv.org/abs/2412.08528v1
Date: Wed, 11 Dec 2024 16:38:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-12 23:20:26.748428
Title: Continual Learning for Encoder-only Language Models via a Discrete Key-Value Bottleneck
Title（参考訳）: 離散鍵値ボトルネックを用いたエンコーダのみの言語モデルの連続学習
Authors: Andor Diera, Lukas Galke, Fabian Karl, Ansgar Scherp,
Abstract要約: エンコーダのみの言語モデルに対して,離散鍵値ボトルネックを導入する。視覚における離散的なキーバリューのボトルネックの成功に触発され、新しいNLP固有の課題に対処する。
参考スコア（独自算出の注目度）: 6.137272725645159
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Continual learning remains challenging across various natural language understanding tasks. When models are updated with new training data, they risk catastrophic forgetting of prior knowledge. In the present work, we introduce a discrete key-value bottleneck for encoder-only language models, allowing for efficient continual learning by requiring only localized updates. Inspired by the success of a discrete key-value bottleneck in vision, we address new and NLP-specific challenges. We experiment with different bottleneck architectures to find the most suitable variants regarding language, and present a generic discrete key initialization technique for NLP that is task independent. We evaluate the discrete key-value bottleneck in four continual learning NLP scenarios and demonstrate that it alleviates catastrophic forgetting. We showcase that it offers competitive performance to other popular continual learning methods, with lower computational costs.
Abstract（参考訳）: 継続的な学習は、様々な自然言語理解タスクに挑戦し続けている。モデルが新しいトレーニングデータで更新されると、以前の知識を忘れてしまう恐れがある。本研究では,エンコーダのみの言語モデルに対して離散鍵値ボトルネックを導入し,局所的な更新しか必要とせず,効率的な連続学習を実現する。視覚における離散的なキーバリューのボトルネックの成功に触発され、新しいNLP固有の課題に対処する。我々は、言語に関する最も適切な変種を見つけるために、異なるボトルネックアーキテクチャを実験し、タスクに依存しないNLPの汎用的な離散鍵初期化手法を提案する。本研究では,4つの連続学習シナリオにおける離散鍵値ボトルネックを評価し,破滅的忘れを軽減できることを示す。計算コストを低く抑えながら、他の一般的な連続学習手法と競合する性能を提供することを示す。

関連論文リスト

Multi-Stage Knowledge Integration of Vision-Language Models for Continual Learning [79.46570165281084]
蒸留法における人間の学習過程をエミュレートするマルチステージ知識統合ネットワーク(MulKI)を提案する。 Mulkiは、イデオロギーの排除、新しいイデオロギーの追加、イデオロギーの排除、コネクティクスの作りという4つの段階を通じてこれを達成している。提案手法は,下流タスク間の連続学習をサポートしながら,ゼロショット能力の維持における大幅な改善を示す。
論文参考訳（メタデータ） (2024-11-11T07:36:19Z)
Benchmarking Vision Language Model Unlearning via Fictitious Facial Identity Dataset [92.99416966226724]
我々は、未学習アルゴリズムの有効性を頑健に評価するために設計された新しいVLMアンラーニングベンチマークであるFacial Identity Unlearning Benchmark (FIUBench)を紹介する。情報ソースとその露出レベルを正確に制御する2段階評価パイプラインを適用した。 FIUBench 内の 4 つのベースライン VLM アンラーニングアルゴリズムの評価により,すべての手法がアンラーニング性能に制限されていることが明らかとなった。
論文参考訳（メタデータ） (2024-11-05T23:26:10Z)
Learn while Unlearn: An Iterative Unlearning Framework for Generative Language Models [52.03511469562013]
3つのコアコンポーネントで構成されるICU(Iterative Contrastive Unlearning)フレームワークを紹介する。知識未学習誘導モジュールは、未学習の損失を使用して、特定の知識を除去するためにターゲットとする。 Contrastive Learning Enhancementモジュールは、純粋な未学習の目標に対してモデルの表現力を保持する。イテレーティブ・アンラーニング・リファインメントモジュールは、進行中の評価と更新を通じて、アンラーニングプロセスを動的に調整する。
論文参考訳（メタデータ） (2024-07-25T07:09:35Z)
Mind the Interference: Retaining Pre-trained Knowledge in Parameter Efficient Continual Learning of Vision-Language Models [79.28821338925947]
ドメインクラスのインクリメンタル学習は現実的だが、継続的な学習シナリオである。これらの多様なタスクに対処するために、事前訓練されたビジョンランゲージモデル(VLM)を導入し、その強力な一般化性を実現する。事前訓練されたVLMにエンコードされた知識は、新しいタスクに適応する際に妨げられ、固有のゼロショット能力を損なう。既存の手法では、膨大なオーバーヘッドを必要とする余分なデータセットに知識蒸留でVLMをチューニングすることで、この問題に対処している。我々は、事前学習した知識を保持できるDIKI(Distributed-Aware Interference-free Knowledge Integration)フレームワークを提案する。
論文参考訳（メタデータ） (2024-07-07T12:19:37Z)
Continual Contrastive Spoken Language Understanding [33.09005399967931]
COCONUTは、経験リプレイとコントラスト学習の組み合わせに依存するクラスインクリメンタルラーニング(CIL)手法である。我々は,COCONUTをデコーダ側で動作するメソッドと組み合わせることで,さらなるメトリクス改善を実現することを示す。
論文参考訳（メタデータ） (2023-10-04T10:09:12Z)
Multi-View Class Incremental Learning [57.14644913531313]
マルチビュー学習(MVL)は、下流タスクのパフォーマンスを改善するためにデータセットの複数の視点から情報を統合することで大きな成功を収めている。本稿では,複数視点クラスインクリメンタルラーニング(MVCIL)と呼ばれる新しいパラダイムについて考察する。
論文参考訳（メタデータ） (2023-06-16T08:13:41Z)
Deep Active Learning Using Barlow Twins [0.0]
畳み込みニューラルネットワーク(CNN)の一般化性能は、トレーニング画像の量、品質、多様性に大きく左右される。タスクのアクティブラーニングの目標は、ラベルのないプールから最も情報に富んだサンプルを引き出すことである。本稿では,すべてのデータセットに対する能動的学習手法であるBarlowTwins(DALBT)を用いたDeep Active Learningを提案する。
論文参考訳（メタデータ） (2022-12-30T12:39:55Z)
Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文参考訳（メタデータ） (2022-10-23T00:37:08Z)
Discrete Key-Value Bottleneck [95.61236311369821]
ディープニューラルネットワークは、データストリームがi.d.d.であり、ラベル付きデータが豊富である分類タスクでうまく機能する。この課題に対処した強力なアプローチの1つは、手軽に利用可能なデータ量に対する大規模なエンコーダの事前トレーニングと、タスク固有のチューニングである。しかし、新しいタスクを考えると、多くの重みを微調整する必要があるため、エンコーダの重みを更新することは困難であり、その結果、以前のタスクに関する情報を忘れてしまう。この問題に対処するモデルアーキテクチャを提案し,個別かつ学習可能なキー値符号のペアを含む離散的ボトルネックの上に構築する。
論文参考訳（メタデータ） (2022-07-22T17:52:30Z)
Detecting Requirements Smells With Deep Learning: Experiences, Challenges and Future Work [9.44316959798363]
本研究の目的は,手動でラベル付きデータセットを作成し,アンサンブル学習,深層学習(DL),単語埋め込みや伝達学習といった手法を用いて一般化問題を克服することで,従来の作業を改善することである。現在の調査結果は、データセットが不均衡であり、どのクラスをもっと追加すべきかを示している。
論文参考訳（メタデータ） (2021-08-06T12:45:15Z)
Generalized Zero-Shot Learning using Multimodal Variational Auto-Encoder with Semantic Concepts [0.9054540533394924]
近年の手法では,意味空間と画像空間の相互マッピングの学習が試みられている。画像特徴と意味空間の共有潜在空間を学習できるマルチモーダル変分自動エンコーダ(M-VAE)を提案する。提案手法は, ゼロショット学習における最先端の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2021-06-26T20:08:37Z)
Reinforced Iterative Knowledge Distillation for Cross-Lingual Named Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文参考訳（メタデータ） (2021-06-01T05:46:22Z)
Continual Learning From Unlabeled Data Via Deep Clustering [7.704949298975352]
継続的学習は、新しいタスクが到着するたびにモデルをスクラッチから再トレーニングするのではなく、少ない計算とメモリリソースを使って、新しいタスクをインクリメンタルに学習することを目的としている。クラスタ割り当てから得られた擬似ラベルをモデル更新に用いて,教師なしモードで継続的学習を実現する新たなフレームワークを提案する。
論文参考訳（メタデータ） (2021-04-14T23:46:17Z)
SID: Incremental Learning for Anchor-Free Object Detection via Selective and Inter-Related Distillation [16.281712605385316]
増分学習は、ストリーミングデータから新しいタスクを継続的に学習するモデルを必要とする。新しいタスクでよく訓練されたディープニューラルネットワークの従来の微調整は、古いタスクのパフォーマンスを劇的に低下させる。 SID(Selective and Inter-related Distillation)と呼ばれる新しい漸進的学習パラダイムを提案する。
論文参考訳（メタデータ） (2020-12-31T04:12:06Z)
Incremental Learning from Low-labelled Stream Data in Open-Set Video Face Recognition [0.0]
本稿では,深層機能エンコーダとSVMのオープンセット動的アンサンブルを組み合わせた新しいインクリメンタル学習手法を提案する。本手法は,教師なしの操作データを用いて認識性を向上させる。結果は、非適応状態の方法に対する最大15%のF1スコア増加の利点を示しています。
論文参考訳（メタデータ） (2020-12-17T13:28:13Z)
Fine-tuning BERT for Low-Resource Natural Language Understanding via Active Learning [30.5853328612593]
本研究では,事前学習した Transformer ベースの言語モデル BERT の微調整手法について検討する。実験結果から,モデルの知識獲得度を最大化することで,モデル性能の優位性を示す。我々は、微調整中の言語モデルの凍結層の利点を分析し、トレーニング可能なパラメータの数を減らす。
論文参考訳（メタデータ） (2020-12-04T08:34:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。