Fugu-MT 論文翻訳(概要): Do Language Models Need Sleep? Offline Recurrence for Improved Online Inference

論文の概要: Do Language Models Need Sleep? Offline Recurrence for Improved Online Inference

arxiv url: http://arxiv.org/abs/2605.26099v2
Date: Wed, 27 May 2026 17:13:15 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-28 17:38:55.070771
Title: Do Language Models Need Sleep? Offline Recurrence for Improved Online Inference
Title（参考訳）: 言語モデルは睡眠を必要とするか? オンライン推論の改善のためのオフライン再帰
Authors: Sangyun Lee, Sean McLeish, Tom Goldstein, Giulia Fanti,
Abstract要約: 本研究では,モデルが周期的に最新のコンテキストを持続的な高速重みに変換する睡眠様統合機構について検討する。睡眠中、モデルは蓄積したコンテキストにN$のオフラインリカレントパスを実行し、状態空間モデルの高速な重みを更新する。睡眠時間の増加は,より深い推論を必要とする例では最大で,我々のモデルではN$の上昇がパフォーマンスを向上させることを示す。
参考スコア（独自算出の注目度）: 58.46323651532913
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformer-based large language models are increasingly used for long-horizon tasks; however, their attention mechanism scales poorly with context length. To handle this, we study a sleep-like consolidation mechanism in which a model periodically converts recent context into persistent fast weights before clearing its key-value cache. During sleep, the model performs $N$ offline recurrent passes over the accumulated context and updates the fast weights in its state-space model (SSM) blocks through a learned local rule. During inference, this shifts extra computation to sleep while preserving the latency of wake-time prediction. We test our method on controlled synthetic tasks, including cellular automata and multi-hop graph retrieval, as well as a realistic math reasoning task, on which a regular transformer as well as SSM-attention hybrid models fail. We then show that increasing sleep duration $N$ for our models improves performance, with the largest gains on examples that require deeper reasoning.
Abstract（参考訳）: 変圧器をベースとした大規模言語モデルは, 長期的タスクにますます利用されているが, 注意機構は文脈長に劣る。そこで本研究では,モデルが周期的に最新のコンテキストを持続的な高速重みに変換し,キー値キャッシュをクリアするスリープライクな統合機構について検討する。睡眠中、モデルは蓄積したコンテキストにN$のオフラインリカレントパスを実行し、学習したローカルルールを通じて状態空間モデル(SSM)ブロックの高速ウェイトを更新する。推論中は、ウェイクタイム予測のレイテンシを保ちながら、余分な計算をスリープにシフトする。我々は,セルオートマトンやマルチホップグラフ検索などの制御された合成タスクや,正規変換器やSSM-アテンションハイブリッドモデルが失敗する現実的な数学推論タスクについて,本手法を検証した。次に、我々のモデルで睡眠時間が増加すると、より深い推論を必要とする例で最大の利益が得られ、パフォーマンスが向上することを示す。

関連論文リスト

TIDES: Implicit Time-Awareness in Selective State Space Models [0.0]
連続時間SSMは不規則なタイムスタンプを扱うが、その力学は線形時間不変(LTI)のままである。選択型および連続型アーキテクチャを再構成する選択型SSMである textbfTIDES を提案する。 TIDESは、UEA時系列分類とPhysome-ODEレグレッションベンチマークに基づいて、最先端の平均ランクを新たに設定する。
論文参考訳（メタデータ） (2026-05-10T20:34:06Z)
Timely Machine: Awareness of Time Makes Test-Time Scaling Agentic [72.97800570813175]
ウォールタイムとしてテスト時間を再定義するTimely Machineを提案する。我々は、高頻度ツールコール、低周波ツールコール、時間制約推論にまたがるベンチマークであるTimely-Evalを紹介する。より小さなモデルでは、より多くのインタラクションを通じて高速なフィードバックが得られ、大きなモデルでは、より優れたインタラクション品質によって、高レイテンシ設定が支配される。
論文参考訳（メタデータ） (2026-01-23T06:28:52Z)
LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。 LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文参考訳（メタデータ） (2024-04-17T08:26:34Z)
Repeat After Me: Transformers are Better than State Space Models at Copying [53.47717661441142]
一般化された状態空間モデルは、推論時間効率の観点からは有望であるが、入力コンテキストからのコピーを必要とするタスクのトランスフォーマーモデルと比較して限定的であることを示す。
論文参考訳（メタデータ） (2024-02-01T21:44:11Z)
SpikeGPT: Generative Pre-trained Language Model with Spiking Neural Networks [21.616328837090396]
スパイキングニューラルネットワーク(SNN)はスパースとイベント駆動のアクティベーションを活用して、モデル推論に関連する計算オーバーヘッドを削減する。イベント駆動型スパイクアクティベーションユニットを用いた生成言語モデルを実装した。 SpikeGPTは、これまでで最大のバックプロパゲーション訓練SNNモデルであり、自然言語の生成と理解の両方に適している。
論文参考訳（メタデータ） (2023-02-27T16:43:04Z)
L-SeqSleepNet: Whole-cycle Long Sequence Modelling for Automatic Sleep Staging [16.96499618061823]
L-SeqSleepNetは、睡眠ステージングのためのサイクル全体の睡眠情報を考慮した、新しいディープラーニングモデルである。 L-SeqSleepNetは、N2睡眠の優位性を緩和し、他の睡眠段階におけるエラーを減少させることができる。
論文参考訳（メタデータ） (2023-01-09T15:44:43Z)
Wake Word Detection with Streaming Transformers [72.66551640048405]
提案したトランスフォーマーモデルでは,同じ偽アラームレートで,平均25%の誤り拒否率でベースライン畳み込みネットワークを性能的に上回ることを示す。 Mobvoiのウェイクワードデータセットに関する実験により,提案したTransformerモデルはベースライン畳み込みネットワークを25%上回る性能を示した。
論文参考訳（メタデータ） (2021-02-08T19:14:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。