Fugu-MT 論文翻訳(概要): EMA Is Not All You Need: Mapping the Boundary Between Structure and Content in Recurrent Context

論文の概要: EMA Is Not All You Need: Mapping the Boundary Between Structure and Content in Recurrent Context

arxiv url: http://arxiv.org/abs/2604.08556v1
Date: Tue, 17 Mar 2026 00:13:24 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-19 19:09:11.405417
Title: EMA Is Not All You Need: Mapping the Boundary Between Structure and Content in Recurrent Context
Title（参考訳）: EMAは必要なすべてではない: 繰り返しコンテキストにおける構造とコンテンツの境界をマッピングする
Authors: Arth Singh,
Abstract要約: 固定係数の蓄積と表現できないものの境界をマップする方法を示す。 Hebbianアーキテクチャは、教師付きBiGRUの96%をゼロラベルによる文法的役割割り当てで達成する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: What exactly do efficient sequence models gain over simple temporal averaging? We use exponential moving average (EMA) traces, the simplest recurrent context (no gating, no content-based retrieval), as a controlled probe to map the boundary between what fixed-coefficient accumulation can and cannot represent. EMA traces encode temporal structure: a Hebbian architecture with multi-timescale traces achieves 96% of a supervised BiGRU on grammatical role assignment with zero labels, surpassing the supervised model on structure-dependent roles. EMA traces destroy token identity: a 130M-parameter language model using only EMA context reaches C4 perplexity 260 (8x GPT-2), and a predictor ablation (replacing the linear predictor with full softmax attention) yields identical loss, localizing the entire gap to the traces. The traces apply lossy, data-independent compression; by the data processing inequality, no downstream predictor can recover the discarded information. Fixed-coefficient accumulation, whether across time or depth, suffers irreversible information dilution that only learned, input-dependent selection can resolve.
Abstract（参考訳）: 単純な時間平均化よりも効率的なシーケンスモデルは、正確に何を得るのか? 指数移動平均(EMA)トレース(英語版)は、最も単純なリカレントコンテキスト(ゲーティングなし、コンテンツベース検索なし)を制御プローブとして使用し、固定係数の蓄積と表現できない境界をマッピングする。 EMAは時間構造をエンコードする:マルチタイムのトレースを持つHebbianアーキテクチャは、ゼロラベルによる文法的役割割り当てにおいて教師付きBiGRUの96%を達成し、構造に依存した役割に関する教師付きモデルを上回っている。 EMAトレースはトークンの同一性を破壊する: EMAコンテキストのみを用いた130Mパラメータ言語モデルは、C4パープレキシティ260 (8x GPT-2)に達し、予測器アブレーション(線形予測器をフルソフトマックスアテンションで置き換える)は、トレースに全ギャップをローカライズする。データ処理の不平等により、ダウンストリーム予測器が破棄された情報を復元することができない。時間や深さを問わず、固定された係数の蓄積は、学習された入力依存の選択のみが解決できる不可逆的な情報希釈に苦しむ。

関連論文リスト

Where Do Flow Semantics Reside? A Protocol-Native Tabular Pretraining Paradigm for Encrypted Traffic Classification [5.044786941116112]
自己監督型マスクドモデリングは、生のバイトをマスキングして再構築することで、暗号化されたトラフィック分類を約束する。最近の研究によると、これらの手法はコストのかかる事前訓練にもかかわらずラベル付きデータへの依存を減らすことができない。トラフィックをシーケンスバイトにフラットにすることで、プロトコル定義のセマンティクスを破壊します。
論文参考訳（メタデータ） (2026-03-09T15:15:23Z)
Revisiting Multivariate Time Series Forecasting with Missing Values [65.30332997607141]
現実の時系列では欠落値が一般的である。現在のアプローチでは、計算モジュールを使用して、不足した値を補う、計算済みの予測フレームワークが開発されている。このフレームワークは、致命的な問題を見落としている: 欠落した値に対して基礎的な真理は存在せず、予測精度を劣化させる可能性のあるエラーの影響を受けやすいようにしている。本稿では,Information Bottleneck原則に基づく新しいフレームワークであるConsistency-Regularized Information Bottleneck(CRIB)を紹介する。
論文参考訳（メタデータ） (2025-09-27T20:57:48Z)
Recursive Equations For Imputation Of Missing Not At Random Data With Sparse Pattern Support [8.863778901027061]
データ分析パイプラインで欠落した値を処理するための一般的なアプローチは、ソフトウェアパッケージによる複数の命令である。我々は、欠落したデータのグラフィカルモデルにおける全データ法則の新たな特徴付けを開発する。 MISPRは、データがMARの場合、MICEに匹敵する結果を得るが、MNARの場合、より優れ、バイアスの少ない結果が得られる。
論文参考訳（メタデータ） (2025-07-21T23:18:36Z)
Detecting Anomalies in Dynamic Graphs via Memory enhanced Normality [39.476378833827184]
動的グラフにおける異常検出は、グラフ構造と属性の時間的進化によって大きな課題となる。時空間記憶強調グラフオートエンコーダ(STRIPE)について紹介する。 STRIPEは、AUCスコアが5.8%改善し、トレーニング時間が4.62倍速く、既存の手法よりも大幅に優れている。
論文参考訳（メタデータ） (2024-03-14T02:26:10Z)
Uncovering the Missing Pattern: Unified Framework Towards Trajectory Imputation and Prediction [60.60223171143206]
軌道予測は、観測されたシーケンスから実体運動や人間の行動を理解する上で重要な作業である。現在の方法では、観測されたシーケンスが完了したと仮定し、欠落した値の可能性を無視する。本稿では,グラフに基づく条件変動リカレントニューラルネットワーク (GC-VRNN) の統一フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-28T14:27:27Z)
Rethinking Reconstruction Autoencoder-Based Out-of-Distribution Detection [0.0]
リコンストラクションオートエンコーダに基づく手法は、入力再構成誤差を新規性対正規性の計量として用いることでこの問題に対処する。本稿では, 意味的再構成, データの確実性分解, 正規化L2距離を導入し, 元の手法を大幅に改善する。提案手法は,追加データや実装の困難さ,時間を要するパイプライン,さらには既知のクラスの分類精度を損なうことなく機能する。
論文参考訳（メタデータ） (2022-03-04T09:04:55Z)
Dendritic Self-Organizing Maps for Continual Learning [0.0]
我々は、DendSOM(Dendritic-Self-Organizing Map)と呼ばれる生物学的ニューロンにインスパイアされた新しいアルゴリズムを提案する。 DendSOMは、入力空間の特定の領域からパターンを抽出する単一のSOMからなる。ベンチマークデータセットでは、古典的なSOMやいくつかの最先端の継続的学習アルゴリズムよりも優れています。
論文参考訳（メタデータ） (2021-10-18T14:47:19Z)
Hankel-structured Tensor Robust PCA for Multivariate Traffic Time Series Anomaly Detection [9.067182100565695]
本研究では,空間データにおける異常検出のためのRPCAのハンケル構造テンソルバージョンを提案する。劣化した行列を低ランクのハンケルテンソルとスパース行列に分解する。本手法は, 合成データと乗客フロー時系列を用いて評価する。
論文参考訳（メタデータ） (2021-10-08T19:35:39Z)
Cloud Failure Prediction with Hierarchical Temporary Memory: An Empirical Assessment [64.73243241568555]
Hierarchical Temporary Memory (HTM) は、新皮質の特徴にインスパイアされた教師なし学習アルゴリズムである。本稿では,障害予測の文脈でHTMを評価する最初の体系的研究について述べる。
論文参考訳（メタデータ） (2021-10-06T07:09:45Z)
Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文参考訳（メタデータ） (2021-07-05T12:44:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。