論文の概要: Discrete Key-Value Bottleneck
- arxiv url: http://arxiv.org/abs/2207.11240v1
- Date: Fri, 22 Jul 2022 17:52:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-25 12:39:23.025146
- Title: Discrete Key-Value Bottleneck
- Title(参考訳): 離散鍵値ボトルネック
- Authors: Frederik Tr\"auble, Anirudh Goyal, Nasim Rahaman, Michael Mozer, Kenji
Kawaguchi, Yoshua Bengio, Bernhard Sch\"olkopf
- Abstract要約: ディープニューラルネットワークは、データストリームがデータストリームであり、ラベル付きデータが豊富であり、クラスラベルがバランスの取れている標準的な環境で、予測と分類タスクでうまく機能する。
この課題に対処した強力なアプローチの1つは、ラベルなしデータのボリュームに対する大規模エンコーダの自己教師付き事前訓練と、タスク固有のチューニングである。
新しいタスクが与えられた場合、エンコーダの重みを更新することは、多くの重みを微調整する必要があるため困難であり、その結果、以前のタスクに関する情報を忘れてしまう。
我々はこの問題に対処するためのモデルアーキテクチャを提案し、離散的なボトルネックの上に構築する。
- 参考スコア(独自算出の注目度): 95.61236311369821
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks perform well on prediction and classification tasks in
the canonical setting where data streams are i.i.d., labeled data is abundant,
and class labels are balanced. Challenges emerge with distribution shifts,
including non-stationary or imbalanced data streams. One powerful approach that
has addressed this challenge involves self-supervised pretraining of large
encoders on volumes of unlabeled data, followed by task-specific tuning. Given
a new task, updating the weights of these encoders is challenging as a large
number of weights needs to be fine-tuned, and as a result, they forget
information about the previous tasks. In the present work, we propose a model
architecture to address this issue, building upon a discrete bottleneck
containing pairs of separate and learnable (key, value) codes. In this setup,
we follow the encode; process the representation via a discrete bottleneck; and
decode paradigm, where the input is fed to the pretrained encoder, the output
of the encoder is used to select the nearest keys, and the corresponding values
are fed to the decoder to solve the current task. The model can only fetch and
re-use a limited number of these (key, value) pairs during inference, enabling
localized and context-dependent model updates. We theoretically investigate the
ability of the proposed model to minimize the effect of the distribution shifts
and show that such a discrete bottleneck with (key, value) pairs reduces the
complexity of the hypothesis class. We empirically verified the proposed
methods' benefits under challenging distribution shift scenarios across various
benchmark datasets and show that the proposed model reduces the common
vulnerability to non-i.i.d. and non-stationary training distributions compared
to various other baselines.
- Abstract(参考訳): ディープニューラルネットワークは、データストリームがi.i.d.であり、ラベル付きデータが多く、クラスラベルがバランスを取っている標準設定での予測と分類のタスクでうまく機能する。
非定常データストリームや不均衡データストリームなど,分散シフトに伴う課題が発生する。
この課題に対処した強力なアプローチの1つは、ラベルなしデータのボリュームに対する大規模エンコーダの自己教師付き事前訓練と、タスク固有のチューニングである。
新しいタスクが与えられた場合、エンコーダの重みを更新することは、多くの重みを微調整する必要があるため困難であり、その結果、以前のタスクに関する情報を忘れてしまう。
本研究では,この問題に対処するモデルアーキテクチャを提案し,個別かつ学習可能な(キー,値)コードのペアを含む離散的ボトルネックを構築する。
この設定では、エンコーダの処理、離散的ボトルネックによる表現、およびプリトレーニングされたエンコーダに入力が供給され、エンコーダの出力が最寄りキーの選択に使用され、対応する値がデコーダに供給されて現在のタスクが解決されるデコードパラダイムに従う。
モデルは推論中に限られた数の(キー、値)ペアをフェッチし、再使用し、局所化およびコンテキスト依存のモデル更新を可能にする。
理論上,分布シフトの効果を最小限に抑えるためのモデルの有効性を検証し,(キー,値)ペアの離散的ボトルネックが仮説クラスの複雑性を減少させることを示した。
提案手法の利点を,様々なベンチマークデータセット間の分散シフトシナリオの挑戦の下で実証的に検証し,提案手法が他の様々なベースラインと比較して,共通脆弱性を非非定常的および非定常的なトレーニング分布に還元することを示す。
関連論文リスト
- A Fresh Take on Stale Embeddings: Improving Dense Retriever Training with Corrector Networks [81.2624272756733]
密集検索では、ディープエンコーダは入力とターゲットの両方に埋め込みを提供する。
我々は、古いキャッシュされたターゲット埋め込みを調整できる小さなパラメトリック補正ネットワークを訓練する。
私たちのアプローチは、トレーニング中にターゲット埋め込み更新が行われなくても、最先端の結果と一致します。
論文 参考訳(メタデータ) (2024-09-03T13:29:13Z) - Complementary Learning Subnetworks for Parameter-Efficient
Class-Incremental Learning [40.13416912075668]
本稿では,2つの補完学習サブネットワークス間のシナジーを通じて連続的に学習するリハーサルフリーなCILアプローチを提案する。
提案手法は, 精度向上, メモリコスト, トレーニング効率, タスク順序など, 最先端手法と競合する結果が得られる。
論文 参考訳(メタデータ) (2023-06-21T01:43:25Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - BatchFormer: Learning to Explore Sample Relationships for Robust
Representation Learning [93.38239238988719]
本稿では,各ミニバッチからサンプル関係を学習可能なディープニューラルネットワークを提案する。
BatchFormerは各ミニバッチのバッチ次元に適用され、トレーニング中のサンプル関係を暗黙的に探索する。
我々は10以上のデータセットに対して広範な実験を行い、提案手法は異なるデータ不足アプリケーションにおいて大幅な改善を実現する。
論文 参考訳(メタデータ) (2022-03-03T05:31:33Z) - Lifelong Learning Without a Task Oracle [13.331659934508764]
監視されたディープニューラルネットワークは、新しいタスクが学習されると、古いタスクの精度が大幅に低下することが知られている。
本稿では,メモリオーバーヘッドの少ないタスク割り当てマップの提案と比較を行う。
最高のパフォーマンスの変種は、平均的なパラメータメモリの増大を1.7%に抑えるだけである。
論文 参考訳(メタデータ) (2020-11-09T21:30:31Z) - Learning to Count in the Crowd from Limited Labeled Data [109.2954525909007]
我々は,限られた数のラベル付きサンプルから参加者を数えることを学ぶことで,アノテーションの努力を減らすことに重点を置いている。
具体的には,未ラベルデータに対する擬似地下真理推定を含むガウス過程に基づく反復学習機構を提案する。
論文 参考訳(メタデータ) (2020-07-07T04:17:01Z) - Laplacian Denoising Autoencoder [114.21219514831343]
本稿では,新しいタイプの自動符号化器を用いてデータ表現を学習することを提案する。
勾配領域における潜伏クリーンデータを破損させて雑音入力データを生成する。
いくつかのビジュアルベンチマークの実験では、提案されたアプローチでより良い表現が学べることが示されている。
論文 参考訳(メタデータ) (2020-03-30T16:52:39Z) - Conditional Mutual information-based Contrastive Loss for Financial Time
Series Forecasting [12.0855096102517]
金融時系列予測のための表現学習フレームワークを提案する。
本稿では、まず時系列データからコンパクトな表現を学習し、次に学習した表現を用いて、時系列の動きを予測するためのより単純なモデルを訓練する。
論文 参考訳(メタデータ) (2020-02-18T15:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。