Fugu-MT 論文翻訳(概要): Learning Associative Inference Using Fast Weight Memory

論文の概要: Learning Associative Inference Using Fast Weight Memory

arxiv url: http://arxiv.org/abs/2011.07831v2
Date: Tue, 23 Feb 2021 17:00:19 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-24 23:30:56.347254
Title: Learning Associative Inference Using Fast Weight Memory
Title（参考訳）: 高速メモリを用いた連想推論の学習
Authors: Imanol Schlag, Tsendsuren Munkhdalai, J\"urgen Schmidhuber
Abstract要約: FWM(Fast Weight Memory)と呼ばれる連想メモリによるLSTMモデルの拡張我々のモデルは勾配降下法によりエンドツーエンドに訓練され、合成言語推論問題において優れた性能が得られる。
参考スコア（独自算出の注目度）: 12.239487954915646
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Humans can quickly associate stimuli to solve problems in novel contexts. Our novel neural network model learns state representations of facts that can be composed to perform such associative inference. To this end, we augment the LSTM model with an associative memory, dubbed Fast Weight Memory (FWM). Through differentiable operations at every step of a given input sequence, the LSTM updates and maintains compositional associations stored in the rapidly changing FWM weights. Our model is trained end-to-end by gradient descent and yields excellent performance on compositional language reasoning problems, meta-reinforcement-learning for POMDPs, and small-scale word-level language modelling.
Abstract（参考訳）: 人間は刺激を素早く関連付け、新しい文脈で問題を解決することができる。提案するニューラルネットワークモデルは,そのような連想推論を行うために構成できる事実の状態表現を学習する。この目的のために我々は,FWM(Fast Weight Memory)と呼ばれる連想メモリでLSTMモデルを拡張した。 LSTMは、与えられた入力シーケンスの各ステップにおける微分可能な操作を通じて、急速に変化するFWM重みに格納された構成関連を更新し、維持する。我々のモデルは、勾配降下によりエンドツーエンドに訓練され、構成言語推論問題、POMDPのためのメタ強化学習、小規模言語モデリングにおいて優れた性能が得られる。

関連論文リスト

TRAIL: Joint Inference and Refinement of Knowledge Graphs with Large Language Models [5.678291291711662]
TRAILは思考、推論、インクリメンタルラーニングのための、新しく統合されたフレームワークである。共同推論と動的KG精製を大きな言語モデルと組み合わせる。複数のベンチマークでの大規模な実験により、TRAILは既存のKG拡張および検索拡張LDMベースラインを3%から13%上回った。
論文参考訳（メタデータ） (2025-08-06T14:25:05Z)
A Neural Network Model of Complementary Learning Systems: Pattern Separation and Completion for Continual Learning [2.9123921488295768]
事前知識を忘れずに新しい情報を学ぶことは、人間の知性の中心である。対照的に、ニューラルネットワークモデルは、新しい情報を取得する際に破滅的な忘れに苦しむ。我々は、最先端の精度(90%)に近づいた、神経学的にもっともらしい連続学習モデルを開発する。本研究は, 生体および人工システムにおいて, メモリ統合, 一般化, 継続学習をモデル化するための機能テンプレートを提供する。
論文参考訳（メタデータ） (2025-07-15T15:05:26Z)
Latent Structured Hopfield Network for Semantic Association and Retrieval [52.634915010996835]
エピソード記憶は、オブジェクト、場所、時間などの意味的要素をコヒーレントなイベント表現に関連付けることによって、過去の経験を思い出すことができる。本稿では,連続ホップフィールドアトラクタダイナミクスを自動エンコーダアーキテクチャに統合するフレームワークであるLatent Structured Hopfield Network (LSHN)を提案する。従来のホップフィールドネットワークとは異なり、我々のモデルは勾配勾配でエンドツーエンドに訓練され、スケーラブルで堅牢なメモリ検索を実現する。
論文参考訳（メタデータ） (2025-06-02T04:24:36Z)
The Unreasonable Effectiveness of Model Merging for Cross-Lingual Transfer in LLMs [54.59207567677249]
大規模言語モデル(LLM)は、ハイソース言語以外のタスクで依然として苦戦している。本研究では,タスク固有のポストトレーニングデータが不足している低リソース言語への言語間移動について検討する。
論文参考訳（メタデータ） (2025-05-23T20:28:31Z)
Analyzing Mitigation Strategies for Catastrophic Forgetting in End-to-End Training of Spoken Language Models [79.90523648823522]
多段階連続学習は破滅的な忘れを招きかねない。本稿では, 3つの緩和戦略, モデルマージ, LoRAスケーリング係数の割引, 経験リプレイについて検討する。その結果,経験的リプレイが最も効果的であることが示され,他の手法と組み合わせることでさらに効果が得られた。
論文参考訳（メタデータ） (2025-05-23T05:50:14Z)
Locate-then-Merge: Neuron-Level Parameter Fusion for Mitigating Catastrophic Forgetting in Multimodal LLMs [19.472889262384818]
本稿では,重要なパラメータを抽出し,それらを選択的にマージする学習自由パラメータ融合フレームワークを提案する。我々は,大きなパラメータシフトを持つニューロンの影響を保ったニューロンレベルの戦略であるニューロン融合を導入する。言語と視覚タスクの両方にわたる13のベンチマークによる実験では、Neuron-Fusionが既存のモデルマージメソッドを一貫して上回っていることが示されている。
論文参考訳（メタデータ） (2025-05-22T14:04:43Z)
Associative memory inspires improvements for in-context learning using a novel attention residual stream architecture [6.144680854063938]
大規模言語モデル(LLM)において、文脈内学習(ICL)が可能な連想記憶モデルを導入する。我々はこれを、情報を直接アテンションヘッド間で流れる新しい残差ストリームアーキテクチャのインスピレーションとして利用する。我々はこのアーキテクチャを2層トランスのトレーニング中にテストし、ICLの能力は修正なしではより高速に発揮できることを示した。
論文参考訳（メタデータ） (2024-12-19T17:55:42Z)
CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。そこで本研究では,学習バランスを定量的に評価する尺度を提案する。さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文参考訳（メタデータ） (2024-07-29T23:18:55Z)
SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。初期経路では、中間出力は反冗長動作によって統合される。遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文参考訳（メタデータ） (2024-07-10T10:22:35Z)
Brain-Like Language Processing via a Shallow Untrained Multihead Attention Network [16.317199232071232]
大規模言語モデル(LLM)は、人間の言語システムの効果的なモデルであることが示されている。本研究では、未学習モデルの驚くほどのアライメントを駆動する重要なアーキテクチャコンポーネントについて検討する。
論文参考訳（メタデータ） (2024-06-21T12:54:03Z)
MemLLM: Finetuning LLMs to Use An Explicit Read-Write Memory [49.96019697955383]
本稿では,構造化および明示的な読み書きメモリモジュールを統合することで,知識能力を向上させる新しい手法であるMemLLMを紹介する。実験の結果,MemLLMは言語モデリング全般,特に言語モデルにおいて,性能と解釈可能性を向上させることが示唆された。私たちは MemLLM を,メモリ拡張による LLM の基盤化と現実化に向けた重要なステップと捉えています。
論文参考訳（メタデータ） (2024-04-17T18:13:16Z)
Scaling Properties of Speech Language Models [4.0142527158949415]
音声言語モデル(SLM)は、テキストリソースを使わずに、生音声から言語を学ぶことを目的としている。テキストベース大規模言語モデル(LLM)の英語習熟度を用いて,現在の手法がSLMを生成するスケールを推定する。
論文参考訳（メタデータ） (2024-03-31T13:30:12Z)
RelationVLM: Making Large Vision-Language Models Understand Visual Relations [66.70252936043688]
本稿では,複数の画像にまたがっても動画内でも,様々なレベルの関係を解釈できる大規模視覚言語モデルであるRelationVLMを提案する。具体的には,多段階的な関係認識学習手法とそれに対応するデータ構成戦略を考案し,意味的関係を理解する能力を備えた関係VLMを提案する。
論文参考訳（メタデータ） (2024-03-19T15:01:19Z)
CAMELoT: Towards Large Language Models with Training-Free Consolidated Associative Memory [38.429707659685974]
大規模言語モデル(LLM)は、メモリとランタイムのコストが高いため、長い入力シーケンスを扱うのに苦労する。本稿では,事前学習した(凍結した)注意に基づくLCMに再学習せずに結合可能な連想記憶モジュールを提案する。 CAMELoTと呼ばれるこのアーキテクチャは、128トークンの小さなコンテキストウィンドウでも優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2024-02-21T01:00:17Z)
In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文参考訳（メタデータ） (2024-01-23T18:59:21Z)
Continual Variational Autoencoder Learning via Online Cooperative Memorization [11.540150938141034]
変分オートエンコーダ(VAE)は連続的な学習分類タスクでうまく使われている。しかし、連続学習で学んだクラスやデータベースに対応する仕様で画像を生成する能力はよく理解されていない。我々は、CLを動的最適輸送問題として定式化する新しい理論フレームワークを開発する。次に,新しいメモリバッファリング手法,すなわちオンライン協調記憶(OCM)フレームワークを提案する。
論文参考訳（メタデータ） (2022-07-20T18:19:27Z)
PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive Learning [109.84770951839289]
歴史的文脈からビジュアルダイナミクスを学習するための新しいリカレントネットワークであるPredRNNを紹介する。本手法は,3つの標準データセット上で高い競争結果が得られることを示す。
論文参考訳（メタデータ） (2021-03-17T08:28:30Z)
Incremental Training of a Recurrent Neural Network Exploiting a Multi-Scale Dynamic Memory [79.42778415729475]
本稿では,マルチスケール学習を対象とする,漸進的に訓練された再帰的アーキテクチャを提案する。隠れた状態を異なるモジュールに分割することで、シンプルなRNNのアーキテクチャを拡張する方法を示す。新しいモジュールがモデルに反復的に追加され、徐々に長い依存関係を学習するトレーニングアルゴリズムについて議論する。
論文参考訳（メタデータ） (2020-06-29T08:35:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。