論文の概要: Learning Associative Inference Using Fast Weight Memory
- arxiv url: http://arxiv.org/abs/2011.07831v2
- Date: Tue, 23 Feb 2021 17:00:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-24 23:30:56.347254
- Title: Learning Associative Inference Using Fast Weight Memory
- Title(参考訳): 高速メモリを用いた連想推論の学習
- Authors: Imanol Schlag, Tsendsuren Munkhdalai, J\"urgen Schmidhuber
- Abstract要約: FWM(Fast Weight Memory)と呼ばれる連想メモリによるLSTMモデルの拡張
我々のモデルは勾配降下法によりエンドツーエンドに訓練され、合成言語推論問題において優れた性能が得られる。
- 参考スコア(独自算出の注目度): 12.239487954915646
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans can quickly associate stimuli to solve problems in novel contexts. Our
novel neural network model learns state representations of facts that can be
composed to perform such associative inference. To this end, we augment the
LSTM model with an associative memory, dubbed Fast Weight Memory (FWM). Through
differentiable operations at every step of a given input sequence, the LSTM
updates and maintains compositional associations stored in the rapidly changing
FWM weights. Our model is trained end-to-end by gradient descent and yields
excellent performance on compositional language reasoning problems,
meta-reinforcement-learning for POMDPs, and small-scale word-level language
modelling.
- Abstract(参考訳): 人間は刺激を素早く関連付け、新しい文脈で問題を解決することができる。
提案するニューラルネットワークモデルは,そのような連想推論を行うために構成できる事実の状態表現を学習する。
この目的のために我々は,FWM(Fast Weight Memory)と呼ばれる連想メモリでLSTMモデルを拡張した。
LSTMは、与えられた入力シーケンスの各ステップにおける微分可能な操作を通じて、急速に変化するFWM重みに格納された構成関連を更新し、維持する。
我々のモデルは、勾配降下によりエンドツーエンドに訓練され、構成言語推論問題、POMDPのためのメタ強化学習、小規模言語モデリングにおいて優れた性能が得られる。
関連論文リスト
- CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
そこで本研究では,学習バランスを定量的に評価する尺度を提案する。
さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T23:18:55Z) - Brain-Like Language Processing via a Shallow Untrained Multihead Attention Network [16.317199232071232]
大規模言語モデル(LLM)は、人間の言語システムの効果的なモデルであることが示されている。
本研究では、未学習モデルの驚くほどのアライメントを駆動する重要なアーキテクチャコンポーネントについて検討する。
論文 参考訳(メタデータ) (2024-06-21T12:54:03Z) - MemLLM: Finetuning LLMs to Use An Explicit Read-Write Memory [49.96019697955383]
本稿では,構造化および明示的な読み書きメモリモジュールを統合することで,知識能力を向上させる新しい手法であるMemLLMを紹介する。
実験の結果,MemLLMは言語モデリング全般,特に言語モデルにおいて,性能と解釈可能性を向上させることが示唆された。
私たちは MemLLM を,メモリ拡張による LLM の基盤化と現実化に向けた重要なステップと捉えています。
論文 参考訳(メタデータ) (2024-04-17T18:13:16Z) - Scaling Properties of Speech Language Models [4.0142527158949415]
音声言語モデル(SLM)は、テキストリソースを使わずに、生音声から言語を学ぶことを目的としている。
テキストベース大規模言語モデル(LLM)の英語習熟度を用いて,現在の手法がSLMを生成するスケールを推定する。
論文 参考訳(メタデータ) (2024-03-31T13:30:12Z) - RelationVLM: Making Large Vision-Language Models Understand Visual Relations [66.70252936043688]
本稿では,複数の画像にまたがっても動画内でも,様々なレベルの関係を解釈できる大規模視覚言語モデルであるRelationVLMを提案する。
具体的には,多段階的な関係認識学習手法とそれに対応するデータ構成戦略を考案し,意味的関係を理解する能力を備えた関係VLMを提案する。
論文 参考訳(メタデータ) (2024-03-19T15:01:19Z) - CAMELoT: Towards Large Language Models with Training-Free Consolidated
Associative Memory [38.429707659685974]
大規模言語モデル(LLM)は、メモリとランタイムのコストが高いため、長い入力シーケンスを扱うのに苦労する。
本稿では,事前学習した(凍結した)注意に基づくLCMに再学習せずに結合可能な連想記憶モジュールを提案する。
CAMELoTと呼ばれるこのアーキテクチャは、128トークンの小さなコンテキストウィンドウでも優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-21T01:00:17Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - Continual Variational Autoencoder Learning via Online Cooperative
Memorization [11.540150938141034]
変分オートエンコーダ(VAE)は連続的な学習分類タスクでうまく使われている。
しかし、連続学習で学んだクラスやデータベースに対応する仕様で画像を生成する能力はよく理解されていない。
我々は、CLを動的最適輸送問題として定式化する新しい理論フレームワークを開発する。
次に,新しいメモリバッファリング手法,すなわちオンライン協調記憶(OCM)フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-20T18:19:27Z) - PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive
Learning [109.84770951839289]
歴史的文脈からビジュアルダイナミクスを学習するための新しいリカレントネットワークであるPredRNNを紹介する。
本手法は,3つの標準データセット上で高い競争結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-17T08:28:30Z) - Incremental Training of a Recurrent Neural Network Exploiting a
Multi-Scale Dynamic Memory [79.42778415729475]
本稿では,マルチスケール学習を対象とする,漸進的に訓練された再帰的アーキテクチャを提案する。
隠れた状態を異なるモジュールに分割することで、シンプルなRNNのアーキテクチャを拡張する方法を示す。
新しいモジュールがモデルに反復的に追加され、徐々に長い依存関係を学習するトレーニングアルゴリズムについて議論する。
論文 参考訳(メタデータ) (2020-06-29T08:35:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。