論文の概要: Lost in State Space: Probing Frozen Mamba Representations
- arxiv url: http://arxiv.org/abs/2605.00253v1
- Date: Thu, 30 Apr 2026 21:35:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.767877
- Title: Lost in State Space: Probing Frozen Mamba Representations
- Title(参考訳): 凍ったマンバの表現は、国家空間で失われた
- Authors: Bhagyashree Wagh, Akash Singh,
- Abstract要約: マンバの繰り返し状態 h_t は、これまで見てきた全てのトークンの圧縮された要約である。
固定パッチ境界におけるトークンレベルの出力y_tを抽出すると、意味文要約を無償で取得する。
我々は,事前訓練したマンバ130Mの背骨から凍結文表現を抽出する4つの方法の比較を行った。
- 参考スコア(独自算出の注目度): 0.5156484100374058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mamba's recurrent state h_t is, by construction, a compressed summary of every token seen so far. This raises a tempting hypothesis: if we extract token-level outputs y_t at fixed patch boundaries, we obtain semantic sentence summaries for free, with no pooling head, no fine-tuning, and no [CLS] token. We test this hypothesis carefully. Across five benchmarks (SST-2, CoLA, MRPC, STS-B, IMDb), we compare four strategies for extracting frozen sentence representations from a pretrained Mamba-130M backbone under a strict frozen-feature probing protocol, using three random seeds where computationally feasible. The results do not support the hypothesis: patch boundary readouts do not consistently outperform simple mean pooling. We identify and quantify two structural pathologies: severe anisotropy (mean pairwise cosine similarity 0.9999, std 0.000044) and representational collapse in the raw final SSM state (MCC = 0.000 on CoLA across all three seeds, confirmed via confusion matrix). We further propose orthogonal injection, a modified recurrence that constrains new information per
- Abstract(参考訳): マンバの繰り返し状態 h_t は、構成上、今まで見てきた全てのトークンの圧縮された要約である。
固定されたパッチ境界でトークンレベルの出力 y_t を抽出すると、スプーリングヘッドが無く、微調整も無く、[CLS]トークンも無いセマンティックな文要約が無償で得られる。
私たちはこの仮説を慎重にテストする。
5つのベンチマーク (SST-2, CoLA, MRPC, STS-B, IMDb) を比較し, 計算可能な3つのランダムシードを用いて, 厳密な凍結機能プロブリングプロトコルの下で, トレーニング済みのMamba-130Mバックボーンから凍結文表現を抽出する4つの戦略を比較した。
パッチバウンダリの読み出しは、単純な平均プーリングを一貫して上回るものではない。
重篤な異方性(平均的コサイン類似度0.9999, std 0.000044)と生の最終SSM状態の表現的崩壊(MCC = 0.000)の2つの構造的病理組織を同定し定量化する。
さらに,新しい情報に制約を課す修正再発である直交注入を提案する。
関連論文リスト
- Token Coherence: Adapting MESI Cache Protocols to Minimize Synchronization Overhead in Multi-Agent LLM Systems [0.0]
マルチエージェントLLMオーケストレーションは、エージェント、ステップ、アーティファクトサイズにおいて、単純なブロードキャストの下でO(n x S x |D|)としてスケールする。
この病理は完全状態再放送の構造的残余であり、マルチエージェント協調の固有の性質ではないと私は主張する。
私はArtifact Coherence System(ACS)を構築し、Token Coherence Theoremを証明します。
論文 参考訳(メタデータ) (2026-03-16T12:20:06Z) - On the Probability of First Success in Differential Evolution: Hazard Identities and Tail Bounds [0.0]
本研究では、条件付きハザードフレームワークによる微分進化(DE)におけるファーストヒッティング時間について検討する。
現状のp$best/1変異を持つL-SHADEアルゴリズムでは、条件付きハザードが明示的な下限を許容するチェック可能なアルゴリズム目撃イベント$mathcal L_t$を構築する。
論文 参考訳(メタデータ) (2026-01-16T18:24:24Z) - Your Absorbing Discrete Diffusion Secretly Models the Bayesian Posterior [0.0]
フォワード汚濁分布下での期待デノイザ出力が真の後部を回復することを示す。
我々は、K個の独立な分極パスを実行し、後続手段と分散の両方を集約する推論時アンサンブルを導入する。
論文 参考訳(メタデータ) (2025-07-10T09:42:47Z) - Near-Optimal Clustering in Mixture of Markov Chains [74.3828414695655]
我々は、長さ$H$の軌跡を、大きさ$S$の有限状態空間上の未知のエルゴードマルコフ鎖の1つによって生成される、$T$ trajectories of length $H$の問題を研究する。
我々は、連鎖の遷移核間の重み付きKL分散によって支配されるクラスタリングエラー率に基づいて、インスタンス依存で高い確率の低い境界を導出する。
次に,新しい2段階クラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-02T05:10:40Z) - Online Covariance Estimation in Nonsmooth Stochastic Approximation [14.818683408659764]
非滑らかな変分包含問題を解くために近似法(SA)を適用することを検討する。
我々の収束構造は、統計的推定法で最もよく知られているものを確立する。
論文 参考訳(メタデータ) (2025-02-07T20:16:51Z) - Prune Spatio-temporal Tokens by Semantic-aware Temporal Accumulation [89.88214896713846]
STAスコアは、時間的冗長性と意味的重要性の2つの重要な要因を考慮に入れている。
市販のビデオトランスフォーマーとビデオウィンにSTAモジュールを適用する。
結果: Kinetics-400 と something-Something V2 は 30% のオーバーシェルフ削減を実現し,0.2% の精度低下を実現した。
論文 参考訳(メタデータ) (2023-08-08T19:38:15Z) - Optimal Clustering with Bandit Feedback [57.672609011609886]
本稿では,バンディットフィードバックを用いたオンラインクラスタリングの問題点について考察する。
これは、NPハード重み付きクラスタリング問題をサブルーチンとして解決する必要性を回避するための、シーケンシャルなテストのための新しい停止規則を含む。
合成および実世界のデータセットの広範なシミュレーションを通して、BOCの性能は下界と一致し、非適応的ベースラインアルゴリズムよりも大幅に優れることを示す。
論文 参考訳(メタデータ) (2022-02-09T06:05:05Z) - Provably Breaking the Quadratic Error Compounding Barrier in Imitation
Learning, Optimally [58.463668865380946]
状態空間 $mathcalS$ を用いたエピソードマルコフ決定過程 (MDPs) における模擬学習の統計的限界について検討する。
rajaraman et al (2020) におけるmdアルゴリズムを用いた準最適性に対する上限 $o(|mathcals|h3/2/n)$ を定式化する。
Omega(H3/2/N)$ $mathcalS|geq 3$ であるのに対して、未知の遷移条件はよりシャープレートに悩まされる。
論文 参考訳(メタデータ) (2021-02-25T15:50:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。