論文の概要: Structural Latency Perturbation in Large Language Models Through Recursive State Induction
- arxiv url: http://arxiv.org/abs/2502.00758v2
- Date: Tue, 25 Mar 2025 13:00:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:50:24.779246
- Title: Structural Latency Perturbation in Large Language Models Through Recursive State Induction
- Title(参考訳): 再帰的状態誘導による大規模言語モデルの構造的遅延摂動
- Authors: Michael Mangrum, Jonathan Pemberton, Benedict Wetherby, Philip Montague,
- Abstract要約: 本研究では、再帰的状態誘導により計算経路を変調する構造的遅延摂動機構を提案する。
再帰状態調整を適用すると、様々なシーケンスの長さにわたる推論遅延が減少することを示した。
計算オーバーヘッドの解析は、活性化を選択的に抑制することが、電力効率の向上に寄与することを示唆している。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Computational efficiency has remained a critical consideration in scaling high-capacity language models, with inference latency and resource consumption presenting significant constraints on real-time applications. The study has introduced a structured latency perturbation mechanism that modifies computational pathways through recursive state induction, enabling dynamic suppression of redundant activations while preserving generative fidelity. A formal mathematical framework has been established to describe recursive perturbations, ensuring that modifications remain adaptive rather than statically imposed. Experiments have demonstrated that applying recursive state adjustments reduces inference latency across varying sequence lengths, with longer text generations benefiting from cumulative efficiency improvements. Comparative evaluations against structured pruning and quantization have indicated that latency gains can be achieved without compromising token retention or memory utilization. The analysis of computational overhead has suggested that selectively suppressing redundant activations contributes to improved power efficiency, particularly in scenarios requiring extended text generation. An assessment of linguistic stability has shown that token-level consistency remains largely intact under controlled perturbation thresholds, reinforcing the viability of structural latency modifications as an alternative to weight-centric optimization techniques. The results have supported the hypothesis that recursive state induction offers an effective method for reducing computational complexity without requiring architectural modifications or external augmentation.
- Abstract(参考訳): 計算効率は高容量言語モデルのスケーリングにおいて重要な考慮事項であり、推論遅延とリソース消費はリアルタイムアプリケーションに重大な制約をもたらしている。
この研究は、再帰的状態誘導によって計算経路を変更する構造的遅延摂動機構を導入し、生成的忠実性を維持しながら冗長なアクティベーションの動的抑制を可能にした。
再帰的摂動を記述するための公式な数学的枠組みが確立され、修正が静的に課されるよりも適応的であることが保証された。
実験により、再帰的な状態調整を適用することで、様々なシーケンスの長さにわたる推論遅延が減少し、累積効率の改善による長文生成が恩恵を受けることが示されている。
構造化プルーニングと量子化の比較評価により,トークン保持やメモリ利用を損なうことなく遅延ゲインを達成できることが示されている。
計算オーバーヘッドの分析は、特に拡張テキスト生成を必要とするシナリオにおいて、冗長なアクティベーションの選択的抑制が電力効率の向上に寄与することを示唆している。
言語安定性の評価では、トークンレベルの一貫性は制御された摂動しきい値の下でほとんど無傷であり、重み中心最適化手法の代替として構造的な遅延修正が可能であることが示されている。
その結果、再帰的状態誘導は、アーキテクチャの変更や外部拡張を必要とせず、計算複雑性を低減する効果的な方法を提供するという仮説を支持した。
関連論文リスト
- A Smooth Transition Between Induction and Deduction: Fast Abductive Learning Based on Probabilistic Symbol Perception [81.30687085692576]
確率的シンボル知覚(PSP)と呼ばれる最適化アルゴリズムを導入し,誘導と推論のスムーズな遷移を実現する。
実験は有望な結果を実証する。
論文 参考訳(メタデータ) (2025-02-18T14:59:54Z) - Structured Convergence in Large Language Model Representations via Hierarchical Latent Space Folding [0.0]
高次元潜在空間におけるトークン表現は、しばしば冗長性を示し、計算効率を制限し、モデル層全体の構造的コヒーレンスを低減する。
本稿では,学習した埋め込みにおいて,マルチスケールの組織を強制する構造的変換機構を提案する。
経験的評価は、層間の表現分散の減少を示し、より安定したパープレキシティ分布に寄与し、テキスト生成における予測信頼性を高める。
論文 参考訳(メタデータ) (2025-02-13T04:01:54Z) - Latent Convergence Modulation in Large Language Models: A Novel Approach to Iterative Contextual Realignment [0.0]
隠れ状態遷移を制御する構造変調機構が導入された。
格子調整は、パープレキシティ変動、エントロピー分散、および語彙不安定の低減に寄与した。
論文 参考訳(メタデータ) (2025-02-10T09:46:33Z) - Contextual Memory Reweaving in Large Language Models Using Layered Latent State Reconstruction [0.0]
シーケンスの長さが増加するにつれて、トークン依存は低下し、一貫性と事実整合性が低下する。
異なる処理層でキャプチャされた潜伏状態の再織り直しを通じてこの問題を軽減するための構造化されたアプローチが導入された。
提案されたContextual Memory Reweavingフレームワークには、Lambed Latent State Restructationメカニズムが組み込まれている。
論文 参考訳(メタデータ) (2025-02-04T06:25:20Z) - Context-Preserving Tensorial Reconfiguration in Large Language Model Training [0.0]
CPTR(Context-Preservingial Reconfiguration)は、構造的因子化と適応的収縮による重みテンソルの動的複雑さを実現する。
実証的な評価は、CPTRが拡張配列間のコヒーレンス保持を改善することを示している。
性能比較の結果,CPTR強化モデルでは計算効率が向上し,メモリ消費が減少した。
論文 参考訳(メタデータ) (2025-02-01T00:55:19Z) - Structured Context Recomposition for Large Language Models Using Probabilistic Layer Realignment [0.0]
本稿では,トランス層内の学習表現を動的に調整する確率的層配向戦略を提案する。
急激なトピックシフトと論理的不整合を軽減し、特にシークエンスが標準の注意窓の制約を超えるシナリオにおいて。
SCRは処理時間を適度に増加させるが、メモリオーバーヘッドは実現可能な限界内に留まり、自動回帰生成アプリケーションへの実用的なデプロイに適している。
論文 参考訳(メタデータ) (2025-01-29T12:46:42Z) - HEAT: Hardware-Efficient Automatic Tensor Decomposition for Transformer
Compression [69.36555801766762]
本稿では,分解可能な指数空間を効率的に探索できるハードウェア対応テンソル分解フレームワークHEATを提案する。
ハードウェア対応のBERT変異体は, エネルギー遅延を5.7倍に低減し, 精度が1.1%以下であることを示す。
論文 参考訳(メタデータ) (2022-11-30T05:31:45Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z) - Untangling tradeoffs between recurrence and self-attention in neural
networks [81.30894993852813]
本稿では,再帰的ネットワークにおける自己注意が勾配伝播に与える影響を公式に分析する。
長期的な依存関係を捉えようとするとき、勾配をなくすことの問題を緩和することを証明する。
本稿では,スパース自己アテンションを反復的にスケーラブルに利用するための関連性スクリーニング機構を提案する。
論文 参考訳(メタデータ) (2020-06-16T19:24:25Z) - Age-Based Coded Computation for Bias Reduction in Distributed Learning [57.9123881133818]
コード計算は、分散学習の高速化に使用することができる。
勾配ベクトルの部分回復は、各反復時の計算時間をさらに短縮することができる。
重なり合う行動が時間とともに相関すると、推定バイアスが特に顕著になる。
論文 参考訳(メタデータ) (2020-06-02T17:51:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。