論文の概要: Discrete Key-Value Bottleneck
- arxiv url: http://arxiv.org/abs/2207.11240v3
- Date: Mon, 12 Jun 2023 15:30:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 02:39:21.695454
- Title: Discrete Key-Value Bottleneck
- Title(参考訳): 離散鍵値ボトルネック
- Authors: Frederik Tr\"auble, Anirudh Goyal, Nasim Rahaman, Michael Mozer, Kenji
Kawaguchi, Yoshua Bengio, Bernhard Sch\"olkopf
- Abstract要約: ディープニューラルネットワークは、データストリームがi.d.d.であり、ラベル付きデータが豊富である分類タスクでうまく機能する。
この課題に対処した強力なアプローチの1つは、手軽に利用可能なデータ量に対する大規模なエンコーダの事前トレーニングと、タスク固有のチューニングである。
しかし、新しいタスクを考えると、多くの重みを微調整する必要があるため、エンコーダの重みを更新することは困難であり、その結果、以前のタスクに関する情報を忘れてしまう。
この問題に対処するモデルアーキテクチャを提案し,個別かつ学習可能なキー値符号のペアを含む離散的ボトルネックの上に構築する。
- 参考スコア(独自算出の注目度): 95.61236311369821
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks perform well on classification tasks where data streams
are i.i.d. and labeled data is abundant. Challenges emerge with non-stationary
training data streams such as continual learning. One powerful approach that
has addressed this challenge involves pre-training of large encoders on volumes
of readily available data, followed by task-specific tuning. Given a new task,
however, updating the weights of these encoders is challenging as a large
number of weights needs to be fine-tuned, and as a result, they forget
information about the previous tasks. In the present work, we propose a model
architecture to address this issue, building upon a discrete bottleneck
containing pairs of separate and learnable key-value codes. Our paradigm will
be to encode; process the representation via a discrete bottleneck; and decode.
Here, the input is fed to the pre-trained encoder, the output of the encoder is
used to select the nearest keys, and the corresponding values are fed to the
decoder to solve the current task. The model can only fetch and re-use a sparse
number of these key-value pairs during inference, enabling localized and
context-dependent model updates. We theoretically investigate the ability of
the discrete key-value bottleneck to minimize the effect of learning under
distribution shifts and show that it reduces the complexity of the hypothesis
class. We empirically verify the proposed method under challenging
class-incremental learning scenarios and show that the proposed model - without
any task boundaries - reduces catastrophic forgetting across a wide variety of
pre-trained models, outperforming relevant baselines on this task.
- Abstract(参考訳): ディープニューラルネットワークは、データストリームがd、ラベル付きデータが豊富である分類タスクでうまく機能する。
継続的な学習のような非定常的なトレーニングデータストリームで課題が浮かび上がる。
この課題に対処した1つの強力なアプローチは、容易に利用可能なデータのボリュームに大規模なエンコーダを事前トレーニングすること、そしてタスク固有のチューニングである。
しかし、新しいタスクが与えられた場合、多くの重みを微調整する必要があるため、エンコーダの重みの更新は困難であり、その結果、以前のタスクに関する情報を忘れてしまう。
本稿では,分離鍵と学習可能な鍵値符号のペアを含む離散的ボトルネックに基づいて,この問題に対処するモデルアーキテクチャを提案する。
私たちのパラダイムは、エンコード、離散的なボトルネックによる表現の処理、デコードです。
ここで、予め訓練されたエンコーダに入力を供給し、エンコーダの出力を使用して最寄りのキーを選択し、対応する値をデコーダに供給して現在のタスクを解決する。
モデルは推論中にこれらのキーと値のペアのスパースをフェッチし、再使用し、ローカライズおよびコンテキスト依存のモデル更新を可能にする。
分散シフト下での学習効果を最小化する離散鍵値ボトルネックの能力を理論的に検討し,それが仮説クラスの複雑性を減少させることを示す。
提案手法をクラス増分学習シナリオで実証的に検証し,提案モデルがタスク境界を含まないことで,様々な事前学習モデルにおける破滅的な忘れを減らし,関連するベースラインを上回っていることを示す。
関連論文リスト
- A Fresh Take on Stale Embeddings: Improving Dense Retriever Training with Corrector Networks [81.2624272756733]
密集検索では、ディープエンコーダは入力とターゲットの両方に埋め込みを提供する。
我々は、古いキャッシュされたターゲット埋め込みを調整できる小さなパラメトリック補正ネットワークを訓練する。
私たちのアプローチは、トレーニング中にターゲット埋め込み更新が行われなくても、最先端の結果と一致します。
論文 参考訳(メタデータ) (2024-09-03T13:29:13Z) - Complementary Learning Subnetworks for Parameter-Efficient
Class-Incremental Learning [40.13416912075668]
本稿では,2つの補完学習サブネットワークス間のシナジーを通じて連続的に学習するリハーサルフリーなCILアプローチを提案する。
提案手法は, 精度向上, メモリコスト, トレーニング効率, タスク順序など, 最先端手法と競合する結果が得られる。
論文 参考訳(メタデータ) (2023-06-21T01:43:25Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - BatchFormer: Learning to Explore Sample Relationships for Robust
Representation Learning [93.38239238988719]
本稿では,各ミニバッチからサンプル関係を学習可能なディープニューラルネットワークを提案する。
BatchFormerは各ミニバッチのバッチ次元に適用され、トレーニング中のサンプル関係を暗黙的に探索する。
我々は10以上のデータセットに対して広範な実験を行い、提案手法は異なるデータ不足アプリケーションにおいて大幅な改善を実現する。
論文 参考訳(メタデータ) (2022-03-03T05:31:33Z) - Lifelong Learning Without a Task Oracle [13.331659934508764]
監視されたディープニューラルネットワークは、新しいタスクが学習されると、古いタスクの精度が大幅に低下することが知られている。
本稿では,メモリオーバーヘッドの少ないタスク割り当てマップの提案と比較を行う。
最高のパフォーマンスの変種は、平均的なパラメータメモリの増大を1.7%に抑えるだけである。
論文 参考訳(メタデータ) (2020-11-09T21:30:31Z) - Learning to Count in the Crowd from Limited Labeled Data [109.2954525909007]
我々は,限られた数のラベル付きサンプルから参加者を数えることを学ぶことで,アノテーションの努力を減らすことに重点を置いている。
具体的には,未ラベルデータに対する擬似地下真理推定を含むガウス過程に基づく反復学習機構を提案する。
論文 参考訳(メタデータ) (2020-07-07T04:17:01Z) - Laplacian Denoising Autoencoder [114.21219514831343]
本稿では,新しいタイプの自動符号化器を用いてデータ表現を学習することを提案する。
勾配領域における潜伏クリーンデータを破損させて雑音入力データを生成する。
いくつかのビジュアルベンチマークの実験では、提案されたアプローチでより良い表現が学べることが示されている。
論文 参考訳(メタデータ) (2020-03-30T16:52:39Z) - Conditional Mutual information-based Contrastive Loss for Financial Time
Series Forecasting [12.0855096102517]
金融時系列予測のための表現学習フレームワークを提案する。
本稿では、まず時系列データからコンパクトな表現を学習し、次に学習した表現を用いて、時系列の動きを予測するためのより単純なモデルを訓練する。
論文 参考訳(メタデータ) (2020-02-18T15:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。