論文の概要: Sign Lock-In: Randomly Initialized Weight Signs Persist and Bottleneck Sub-Bit Model Compression
- arxiv url: http://arxiv.org/abs/2602.17063v1
- Date: Thu, 19 Feb 2026 04:10:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.627567
- Title: Sign Lock-In: Randomly Initialized Weight Signs Persist and Bottleneck Sub-Bit Model Compression
- Title(参考訳): Sign Lock-In: ランダムに初期化されたウェイトサインはパーシスタンスとボトルネックのサブビットモデル圧縮を実現する
- Authors: Akira Sakai, Yuma Ichikawa,
- Abstract要約: サブビットモデル圧縮は1重量あたり1ビット以下のストレージを求め、大きさが圧縮されると、符号ビットは固定コストのボトルネックとなる。
アクロストランスフォーマー、CNN、CNNは、低ランク近似に抵抗する符号行列を学習し、i.i.dとスペクトル的に区別できない。
我々は,SGD雑音下でのサインフリップの停止時間解析であるサインロックイン理論を用いて,この挙動を定式化する。
- 参考スコア(独自算出の注目度): 7.09016563801433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sub-bit model compression seeks storage below one bit per weight; as magnitudes are aggressively compressed, the sign bit becomes a fixed-cost bottleneck. Across Transformers, CNNs, and MLPs, learned sign matrices resist low-rank approximation and are spectrally indistinguishable from an i.i.d. Rademacher baseline. Despite this apparent randomness, most weights retain their initialization signs; flips primarily occur via rare near-zero boundary crossings, suggesting that sign-pattern randomness is largely inherited from initialization. We formalize this behavior with sign lock-in theory, a stopping-time analysis of sign flips under SGD noise. Under bounded updates and a rare re-entry condition into a small neighborhood around zero, the number of effective sign flips exhibits a geometric tail. Building on this mechanism, we introduce a gap-based initialization and a lightweight outward-drift regularizer, reducing the effective flip rate to approximately $10^{-3}$ with only about a one-point increase in perplexity.
- Abstract(参考訳): サブビットモデル圧縮は1重量あたり1ビット以下のストレージを求め、大きさが積極的に圧縮されると、符号ビットは固定コストのボトルネックとなる。
Across Transformer, CNNs, MLPs, learned sign matrices resistlow-rank approximation, and are contrastly undistingation with an i.d. Rademacher baseline。
この明らかなランダム性にもかかわらず、ほとんどの重みは初期化符号を保持しており、フリップは主に稀な近ゼロ境界交差によって発生し、符号-パターンランダム性は初期化から大きく継承されていることを示唆している。
我々は,SGD雑音下でのサインフリップの停止時間解析であるサインロックイン理論を用いて,この挙動を定式化する。
境界更新と0付近の小さな近傍への希少な再突入条件の下では、有効符号フリップの数は幾何学的テールを示す。
この機構に基づいて、ギャップベースの初期化と軽量な外向きドリフト正規化器を導入し、有効フリップ率を約10^{-3}$に下げる。
関連論文リスト
- Phase-space entropy at acquisition reflects downstream learnability [54.4100065023873]
楽器分解位相空間に基づく取得レベルスカラー$S_mathcal B$を提案する。
本稿では, (S_mathcal B) が周期サンプリングの位相空間コヒーレンスを正確に同定できることを理論的に示す。
$|S_mathcal B|$は一貫してサンプリングジオメトリをランク付けし、トレーニングなしで下流での再構築/認識の困難を予測します。
論文 参考訳(メタデータ) (2025-12-22T10:03:51Z) - SBFA: Single Sneaky Bit Flip Attack to Break Large Language Models [16.379863498328955]
Bit-Flip攻撃はディープニューラルネットワーク(DNN)を著しく損なう
SBFA(Sneaky Bit-Flip Attack)を提案する。
パラメータ感度の基準であるImpactScoreを用いて、反復的な検索とランキングによって達成される。
論文 参考訳(メタデータ) (2025-09-26T04:03:53Z) - A Signed Graph Approach to Understanding and Mitigating Oversmoothing in GNNs [54.62268052283014]
署名されたグラフの枠組みに基づく統一的な理論的視点を示す。
既存の戦略の多くは、メッセージパッシングを変えて過度な操作に抵抗する負のエッジを暗黙的に導入している。
本稿では,ラベルや特徴の類似性に基づいて署名されたエッジを割り当てるプラグイン・アンド・プレイ方式であるStructure Balanced Propagation (SBP)を提案する。
論文 参考訳(メタデータ) (2025-02-17T03:25:36Z) - Langevin dynamics for high-dimensional optimization: the case of multi-spiked tensor PCA [8.435118770300999]
本研究では,最大SNRに伴うスパイクの回復に必要なサンプルの複雑さが,シングルスパイクの場合のよく知られたアルゴリズムしきい値と一致することを示す。
重要なステップとして、高次元の軌道力学を捉えるスパイクと相互作用の詳細なキャラクタリゼーションを提供する。
論文 参考訳(メタデータ) (2024-08-12T12:09:25Z) - On Leaky-Integrate-and Fire as Spike-Train-Quantization Operator on
Dirac-Superimposed Continuous-Time Signals [0.5439020425819]
Leaky-integrate-and-fire (LIF) は、積分可能な信号$f$を離散イベントのシーケンス$eta_f$にマッピングする非線形演算子として研究される。
局所可積分性の一般条件下では、漏れパラメータ $alpha$ を持つ量子化公式 $|eta_f - f|_A, alpha$ が証明される。
論文 参考訳(メタデータ) (2024-02-10T17:07:19Z) - A Pseudo-Semantic Loss for Autoregressive Models with Logical
Constraints [87.08677547257733]
ニューロシンボリックAIは、純粋にシンボリックな学習とニューラルな学習のギャップを埋める。
本稿では,ニューラルネットワークの出力分布に対するシンボリック制約の可能性を最大化する方法を示す。
また,スドクと最短経路予測の手法を自己回帰世代として評価した。
論文 参考訳(メタデータ) (2023-12-06T20:58:07Z) - Rethinking SIGN Training: Provable Nonconvex Acceleration without First-
and Second-Order Gradient Lipschitz [66.22095739795068]
符号ベースの手法は、パラメータ更新にのみ符号情報を使用するにもかかわらず、堅牢な性能を達成する能力によって注目されている。
符号に基づく手法の現在の収束解析は、一階加速度と二階加速度の強い仮定に依存する。
本稿では,より現実的な第1次および第2次加速度の仮定の下で,それらの収束を解析する。
論文 参考訳(メタデータ) (2023-10-23T06:48:43Z) - Outlier Suppression: Pushing the Limit of Low-bit Transformer Language
Models [57.933500846742234]
最近の研究は、構造化された外れ値が量子化性能の重要なボトルネックであることを認識している。
本稿では,Gamma Migration と Token-Wise Clipping の2つのコンポーネントを含む外部抑制フレームワークを提案する。
このフレームワークは、アウトレイラを効果的に抑制し、プラグアンドプレイモードで使用することができる。
論文 参考訳(メタデータ) (2022-09-27T12:05:59Z) - Distributional Hardness Against Preconditioned Lasso via Erasure-Robust
Designs [22.41443027099101]
標準スパースランダム設計は, 逆測定消去に対して高い確率で頑健であることを示す。
消去下での任意のスパース信号の部分的回復性が圧縮センシングで研究されたのはこれが初めてである。
論文 参考訳(メタデータ) (2022-03-05T22:16:05Z) - WARPd: A linearly convergent first-order method for inverse problems
with approximate sharpness conditions [0.0]
シャープネス条件は1次法のリスタートスキームのリカバリ性能を直接制御する。
重み付き, 加速度付き, 再起動されたプリマルデュアル(WARPd)の1次手法を提案する。
一般的な近似的シャープネス条件の下では、WARPd は所望のベクトルに対して安定な線形収束を達成する。
本稿では、WARPdが専門的な最先端手法と比較し、大規模問題の解決に最適であることを示す。
論文 参考訳(メタデータ) (2021-10-24T13:19:41Z) - Support Recovery in Universal One-bit Compressed Sensing [54.26691979520478]
1ビット圧縮センシング (1bCS) は極端量子化信号取得法である。
少数の偽陽性で支持を普遍的に回復することは可能であることを示す。
論文 参考訳(メタデータ) (2021-07-19T18:10:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。