Fugu-MT 論文翻訳(概要): When to Think Fast and Slow? AMOR: Entropy-Based Metacognitive Gate for Dynamic SSM-Attention Switching

論文の概要: When to Think Fast and Slow? AMOR: Entropy-Based Metacognitive Gate for Dynamic SSM-Attention Switching

arxiv url: http://arxiv.org/abs/2602.13215v1
Date: Thu, 22 Jan 2026 17:19:58 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-23 12:01:13.55183
Title: When to Think Fast and Slow? AMOR: Entropy-Based Metacognitive Gate for Dynamic SSM-Attention Switching
Title（参考訳）: 高速かつスローか? AMOR:動的SSMアテンションスイッチングのためのエントロピーに基づくメタ認知ゲート
Authors: Haoran Zheng,
Abstract要約: ステートスペースモデル(SSM)は効率的な代替手段を提供するが、長期にわたって正確な情報検索に苦慮している。認知の二重プロセス理論に着想を得たAMORは,SSMバックボーンが"不確か"である場合にのみ,スパークアテンションを動的に行うハイブリッドアーキテクチャである。小規模な合成検索タスクでは、AMORはSSMのみのベースラインとトランスフォーマーのみのベースラインの両方を上回っている。
参考スコア（独自算出の注目度）: 4.238040764117957
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Transformers allocate uniform computation to every position, regardless of difficulty. State Space Models (SSMs) offer efficient alternatives but struggle with precise information retrieval over a long horizon. Inspired by dual-process theories of cognition (Kahneman, 2011), we propose AMOR (Adaptive Metacognitive Output Router), a hybrid architecture that dynamically engages sparse attention only when an SSM backbone is "uncertain"--as measured by prediction entropy. Compared to standard transformers, AMOR gains efficiency by projecting keys and values from SSM hidden states (Ghost KV), reusing the SSM's O(n) computation rather than requiring O(n^2) attention at every layer. On small-scale synthetic retrieval tasks, AMOR outperforms both SSM-only and transformer-only baselines, achieving perfect retrieval accuracy while engaging attention on only 22% of positions. We validate that prediction entropy reliably signals retrieval need, with a gap of 1.09 nats (nearly half the entropy range) between retrieval and local positions. Additionally, our approach provides interpretable adaptive computation, where routing decisions can be understood in information-theoretic terms.
Abstract（参考訳）: トランスフォーマーは、困難にかかわらず、あらゆる位置に均一な計算を割り当てる。ステートスペースモデル(SSM)は効率的な代替手段を提供するが、長期にわたって正確な情報検索に苦慮している。認知の二重プロセス理論(Kahneman, 2011)に着想を得たAMOR(Adaptive Metacognitive Output Router)を提案する。標準変換器と比較して、AMORはSSM隠蔽状態(ゴーストKV)からキーと値を投影することで効率を向上し、すべての層にO(n^2)の注意を必要とせず、SSMのO(n)計算を再利用する。小規模な合成検索タスクでは、AMORはSSMのみのベースラインとトランスフォーマーのみのベースラインの両方を上回り、22%の位置にのみ注意を向けながら、完全な精度を達成している。予測エントロピーは、検索と局所的な位置の間に1.09個のナット(ほぼ半分のエントロピー範囲)のギャップを持ち、検索の必要性を確実に信号する。さらに,本手法は,情報理論の用語でルーティング決定を理解可能な,解釈可能な適応計算を提供する。

関連論文リスト

Architectural Proprioception in State Space Models: Thermodynamic Training Induces Anticipatory Halt Detection [0.0]
本稿では,熱力学の原理によって支配される確率多様体による計算をナビゲーションとして扱う確率ナビゲーションアーキテクチャ(PNA)を紹介する。我々は、標準的なクロスエントロピーと共に計算廃棄物をペナルティ化する新しい熱力学的損失関数で、ステートスペースモデル(SSM)とトランスフォーマーを訓練する。
論文参考訳（メタデータ） (2026-03-04T15:36:40Z)
Retrievit: In-context Retrieval Capabilities of Transformers, State Space Models, and Hybrid Architectures [47.30551127397794]
本研究では,トランスフォーマーとステートスペースモデルを組み合わせたハイブリッドアーキテクチャが,2つの合成インコンテキスト検索タスクにおいて両世界の長所を達成できるかどうかを考察する。ハイブリッドモデルはSSMを上回り、データ効率と情報深度コンテキスト検索のための外挿においてTransformerを上回り、あるいは上回ります。
論文参考訳（メタデータ） (2026-03-03T11:28:33Z)
Rethinking Multi-Condition DiTs: Eliminating Redundant Attention via Position-Alignment and Keyword-Scoping [61.459927600301654]
マルチコンディション制御は従来のコンカデント・アンド・アットエンドの戦略によってボトルネックとなる。分析の結果,これらの相互作用の多くは空間的にも意味的にも冗長であることがわかった。本稿では,これらの冗長性を解消するための高効率なフレームワークであるPKAを提案する。
論文参考訳（メタデータ） (2026-02-06T16:39:10Z)
AMORE: Adaptive Multi-Output Operator Network for Stiff Chemical Kinetics [4.621457883636921]
固形系の時間積分は燃焼、超音速、その他の反応性輸送系における計算コストの主要な源である。複数の出力と適応損失関数を予測できる演算子で構成されるフレームワークであるAMOREを開発した。
論文参考訳（メタデータ） (2025-10-15T00:43:30Z)
HALO: Memory-Centric Heterogeneous Accelerator with 2.5D Integration for Low-Batch LLM Inference [8.057006406834462]
大きな言語モデル(LLM)は、レイテンシに敏感なアプリケーションにおける効率的な推論の需要を増大させた。これらの課題に対するヘテロジニアスメモリ中心のアクセラレータであるHALOを提案する。 HALOはAtAccの最大18倍の幾何平均速度を達成し,注目度を最適化したマッピング,CENTの2.5倍を実現している。
論文参考訳（メタデータ） (2025-10-03T02:20:17Z)
Fast attention mechanisms: a tale of parallelism [52.7657529272906]
準四分法的時間複雑性を有する近似近傍注意(ANNA)という,効率的な注意機構を導入する。我々は,ANNA変換器が従来確立されていた表現力を維持し,MPCアルゴリズムの能力に適合することを示す。
論文参考訳（メタデータ） (2025-09-10T20:59:44Z)
SparseSSM: Efficient Selective Structured State Space Models Can Be Pruned in One-Shot [8.080568103779893]
Mambaのような状態空間言語モデルは、線形複雑性推論を許容しながらTransformerの品質にマッチする。既存のワンショットプルーニング手法はアテンションブロックに適合し、時間共有および離散化された状態遷移行列を考慮できない。 SparseSSMは、古典的最適な脳外科医(OBS)フレームワークをステートスペースアーキテクチャに拡張した最初のトレーニングフリープルーニングフレームワークである。
論文参考訳（メタデータ） (2025-06-11T11:14:57Z)
Efficient Transformed Gaussian Process State-Space Models for Non-Stationary High-Dimensional Dynamical Systems [49.819436680336786]
本研究では,高次元非定常力学系のスケーラブルかつ柔軟なモデリングのための効率的な変換ガウス過程状態空間モデル(ETGPSSM)を提案する。具体的には、ETGPSSMは、単一の共有GPと入力依存の正規化フローを統合し、複雑な非定常遷移ダイナミクスを捉える前に、表現的な暗黙のプロセスを生成する。 ETGPSSMは、計算効率と精度の観点から、既存のGPSSMとニューラルネットワークベースのSSMより優れています。
論文参考訳（メタデータ） (2025-03-24T03:19:45Z)
Toward Relative Positional Encoding in Spiking Transformers [76.72869420863749]
スパイキングニューラルネットワーク(スパイキングニューラルネット、英: Spiking Neural Network、SNN)は、脳内のニューロンが離散スパイクを通してどのように通信するかを模倣するバイオインスパイアネットワークである。スパイクのバイナリ特性を保ちながら、スパイク変換器における相対的な位置エンコーディングを近似する戦略をいくつか導入する。
論文参考訳（メタデータ） (2025-01-28T06:42:37Z)
Resource Allocation of Federated Learning for the Metaverse with Mobile Augmented Reality [13.954907748381743]
モバイル拡張現実(MAR)によるメタバースアプリケーションは、デジタルデータを現実世界と混在させるために、迅速かつ正確なオブジェクト検出を必要とする。フェデレートラーニング(FL)は、プライバシ保護の特性から興味深い分散機械学習アプローチである。本稿では,全エネルギー消費,完了時間,モデル精度の重み付けを最小化するために最適化問題を定式化する。
論文参考訳（メタデータ） (2022-11-16T06:37:32Z)
Learning towards Synchronous Network Memorizability and Generalizability for Continual Segmentation across Multiple Sites [52.84959869494459]
臨床実践では、複数のサイトから連続的なデータストリームを継続的に学習するために、セグメンテーションネットワークが必要であることが多い。既存の方法は、通常、以前のサイトのネットワーク記憶可能性や、目に見えないサイトの一般化可能性に制限される。本稿では,SMG学習フレームワークの提案により,同期記憶可能性と一般化可能性の問題に取り組むことを目的とする。
論文参考訳（メタデータ） (2022-06-14T13:04:36Z)
Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文参考訳（メタデータ） (2021-11-23T11:35:54Z)
Faster Depth-Adaptive Transformers [71.20237659479703]
深さ適応型ニューラルネットワークは入力単語の硬さに応じて動的に深さを調整することができる。従来の作業は一般的に、計算が各レイヤで続行するか停止するかを決定するために停止ユニットを構築する。本稿では,停止ユニットを除去し,必要な深さを事前に推定し,より高速な深度適応モデルを生成する。
論文参考訳（メタデータ） (2020-04-27T15:08:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。