論文の概要: Explain My Surprise: Learning Efficient Long-Term Memory by Predicting
Uncertain Outcomes
- arxiv url: http://arxiv.org/abs/2207.13649v1
- Date: Wed, 27 Jul 2022 17:12:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-28 12:57:20.604059
- Title: Explain My Surprise: Learning Efficient Long-Term Memory by Predicting
Uncertain Outcomes
- Title(参考訳): 説明私のサプライズ:不確かさの予測による学習効率のよい長期記憶
- Authors: Artyom Sorokin, Nazar Buzun, Leonid Pugachev, Mikhail Burtsev
- Abstract要約: 我々は,シーケンス全体を通して勾配をバックプロパゲートすることなく,長期的依存関係を学習できる新しいトレーニング手法であるMemUPを提案する。
リカレントアーキテクチャのMemUP実装では、パフォーマンスはベースラインに匹敵するが、計算メモリは大幅に少なくなっている。
- 参考スコア(独自算出の注目度): 0.1092387707389144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many sequential tasks, a model needs to remember relevant events from the
distant past to make correct predictions. Unfortunately, a straightforward
application of gradient based training requires intermediate computations to be
stored for every element of a sequence. This requires prohibitively large
computing memory if a sequence consists of thousands or even millions elements,
and as a result, makes learning of very long-term dependencies infeasible.
However, the majority of sequence elements can usually be predicted by taking
into account only temporally local information. On the other hand, predictions
affected by long-term dependencies are sparse and characterized by high
uncertainty given only local information. We propose MemUP, a new training
method that allows to learn long-term dependencies without backpropagating
gradients through the whole sequence at a time. This method can be potentially
applied to any gradient based sequence learning. MemUP implementation for
recurrent architectures shows performances better or comparable to baselines
while requiring significantly less computing memory.
- Abstract(参考訳): 多くのシーケンシャルなタスクでは、モデルが正確な予測を行うために、遠い過去の関連するイベントを記憶する必要がある。
残念ながら、勾配に基づくトレーニングの簡単な適用には、シーケンスの各要素に中間計算を格納する必要がある。
これは、シーケンスが数千から数百万の要素で構成されている場合、非常に大きな計算メモリを必要とし、その結果、非常に長期的な依存関係の学習が不可能になる。
しかし、ほとんどのシーケンス要素は、時間的に局所的な情報のみを考慮して予測できる。
一方,長期依存による予測は不十分であり,ローカル情報のみを前提とした不確実性が高いことが特徴である。
我々は,シーケンス全体の勾配をバックプロパゲートすることなく,長期的依存関係を学習できる新しいトレーニング手法であるMemUPを提案する。
この方法は任意の勾配に基づくシーケンス学習に適用することができる。
再並行アーキテクチャのMemUP実装では、パフォーマンスはベースラインに匹敵するが、計算メモリは大幅に少ない。
関連論文リスト
- STAND: Data-Efficient and Self-Aware Precondition Induction for Interactive Task Learning [0.0]
STANDはデータ効率と計算効率のよい機械学習手法である。
XGBoostのような一般的なアプローチよりも、分類精度が高い。
これはインスタンス確実性と呼ばれる尺度を生成し、ホールドアウトセットのパフォーマンスの増加を予測する。
論文 参考訳(メタデータ) (2024-09-11T22:49:38Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。
HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。
トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文 参考訳(メタデータ) (2024-04-16T06:34:08Z) - PARMESAN: Parameter-Free Memory Search and Transduction for Dense Prediction Tasks [5.5127111704068374]
この研究は、トランスダクティブ推論によるディープラーニングの柔軟性に対処する。
我々は,高密度予測タスクを解くためにメモリモジュールを活用するスケーラブルな手法であるPARMESANを提案する。
提案手法は,一般的なアーキテクチャと互換性があり,標準で1D,2D,3Dグリッドベースのデータに転送する。
論文 参考訳(メタデータ) (2024-03-18T12:55:40Z) - Memory-Based Dual Gaussian Processes for Sequential Learning [26.22552882103996]
提案手法は,最近提案されたデュアルスパース変分GPを用いて,これらの誤差をすべてチェックする手法である。
提案手法は,過去のデータのメモリを積極的に構築・更新することで,汎用可能性の正確な推測を可能にし,学習を改善する。
論文 参考訳(メタデータ) (2023-06-06T10:34:03Z) - Learning Sequence Representations by Non-local Recurrent Neural Memory [61.65105481899744]
教師付きシーケンス表現学習のためのNon-local Recurrent Neural Memory (NRNM)を提案する。
我々のモデルは長距離依存を捉えることができ、潜伏した高レベル特徴を我々のモデルで抽出することができる。
我々のモデルは、これらのシーケンスアプリケーションごとに特別に設計された他の最先端の手法と比較して好意的に比較する。
論文 参考訳(メタデータ) (2022-07-20T07:26:15Z) - Provable Reinforcement Learning with a Short-Term Memory [68.00677878812908]
我々はPMDPsの新しいサブクラスについて研究し、その潜在状態は、最近の短い長さ$m$の履歴によって復号化することができる。
特に、リッチ・オブザーブレーション・セッティングにおいて、指数関数的にスケールするサンプル複雑性を持つ新しい「モーメントマッチング」アプローチを用いて、新しいアルゴリズムを開発する。
以上の結果から,これらの環境下での強化学習には短期記憶が十分であることが示唆された。
論文 参考訳(メタデータ) (2022-02-08T16:39:57Z) - Learning to Rehearse in Long Sequence Memorization [107.14601197043308]
既存の推論タスクは、しばしば、推論中に入力内容が常にアクセス可能であるという重要な仮定を持つ。
メモリ拡張ニューラルネットワークは、人間のような書き込み読み取りメモリを導入し、1回のパスで長い入力シーケンスを圧縮し記憶する。
しかし、2つの重大な欠点がある: 1) メモリを現在の情報から継続的に更新し、必然的に初期の内容を忘れる; 2) 重要な情報を区別せず、全てのコンテンツを平等に扱う。
本稿では,履歴サンプリング装置を用いた自己教師型リハーサルによる長期記憶向上のためのリハーサルメモリを提案する。
論文 参考訳(メタデータ) (2021-06-02T11:58:30Z) - Condensed Composite Memory Continual Learning [17.192367229752072]
ディープニューラルネットワーク(DNN)は、最新のタスクのデータのみが利用可能な一連のタスクでトレーニングされると、パフォーマンスが急速に低下します。
本稿では,完全なデータセットの本質を捉えた,少数の合成例を学習する新しい方法を提案する。
論文 参考訳(メタデータ) (2021-02-19T12:18:15Z) - Dynamic Memory based Attention Network for Sequential Recommendation [79.5901228623551]
DMAN(Dynamic Memory-based Attention Network)と呼ばれる新しい連続的推薦モデルを提案する。
長い動作シーケンス全体を一連のサブシーケンスに分割し、モデルをトレーニングし、ユーザの長期的な利益を維持するためにメモリブロックのセットを維持する。
動的メモリに基づいて、ユーザの短期的および長期的関心を明示的に抽出し、組み合わせて効率的な共同推薦を行うことができる。
論文 参考訳(メタデータ) (2021-02-18T11:08:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。