論文の概要: Compression is Routing: Reconstruction Error as an Intrinsic Signal for Modular Language Models
- arxiv url: http://arxiv.org/abs/2512.16963v2
- Date: Mon, 22 Dec 2025 05:58:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 14:49:56.314309
- Title: Compression is Routing: Reconstruction Error as an Intrinsic Signal for Modular Language Models
- Title(参考訳): 圧縮がルーティングする:モジュール型言語モデルの固有信号としての再構成誤差
- Authors: Zhongpan Tang,
- Abstract要約: 「この論文は、圧縮は知性である」という前提に基づいている。」
それは新しいアーキテクチャ哲学を提唱している: 圧縮はルーティングである。
超長期のコンテキストを扱うために、VRAM圧縮の新たな視点を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current Large Language Models (LLMs) face three major challenges: context length limitations, high inference costs, and catastrophic forgetting during continual learning. While Mixture-of-Experts (MoE) architectures mitigate some of these conflicts, their routing mechanisms typically rely on explicitly trained auxiliary classifiers. This not only increases system complexity but also often lacks interpretability when handling mixed-domain inputs. Building upon the premise that ``Compression is Intelligence,'' this paper proposes a novel architectural philosophy: Compression is Routing. We trained an 87M-parameter end-to-end Transformer Autoencoder, achieving a 64x sequence length compression (compressing 512 tokens into 8 latent vectors). Experimental results demonstrate that this compressor possesses extreme domain discriminative capability: it achieves a reconstruction accuracy of 99.47% on the in-domain (code) validation set; accuracy drops sharply to 47.76% on a semi-out-of-distribution domain (Wiki text); and further plummets to just 0.57% on a fully out-of-distribution domain (random sequences). This extreme and systematic performance discrepancy establishes the validity of reconstruction error as an Intrinsic Distribution Fingerprint. Based on this, we propose that expert modules can be automatically scheduled using reconstruction residuals directly, without the need for explicit gating networks. This mechanism offers excellent scalability. Furthermore, this architecture provides a new perspective on ``VRAM compression'' for handling ultra-long contexts. This report aims to verify the physical validity of this foundational architecture, offering a new research perspective for the next generation of scalable modular neural networks.
- Abstract(参考訳): 現在のLarge Language Models(LLM)は、コンテキスト長制限、高い推論コスト、継続的な学習における破滅的な忘れという3つの大きな課題に直面しています。
Mixture-of-Experts (MoE) アーキテクチャはこれらの競合のいくつかを緩和するが、それらのルーティング機構は通常、明示的に訓練された補助分類器に依存している。
これはシステムの複雑さを増大させるだけでなく、混合ドメイン入力を扱う際の解釈可能性に欠ける。
この論文は,「圧縮は知性である」という前提に基づいて,新しいアーキテクチャ哲学を提案する。
87Mパラメーターのエンドツーエンドトランスフォーマーオートエンコーダをトレーニングし,64倍のシーケンス長圧縮(512トークンを8つの潜在ベクトルに圧縮)を実現した。
実験の結果、この圧縮機は、ドメイン内(コード)検証セットで99.47%の再現精度を達成し、半配布ドメイン(Wikiテキスト)で47.76%まで精度を急落させ、さらに、完全配布ドメイン(ランダムシーケンス)で0.57%まで低下することがわかった。
この極端かつ体系的な性能差は、本質的な分布フィンガープリントとして再構成誤差の妥当性を確立する。
そこで本稿では, 明示的なゲーティングネットワークを必要とせずに, 復元残差を直接利用して, 専門家モジュールを自動スケジュールする手法を提案する。
このメカニズムは優れたスケーラビリティを提供します。
さらに、このアーキテクチャは超長いコンテキストを扱うために ``VRAM 圧縮' に関する新しい視点を提供する。
本報告は,次世代のスケーラブルなモジュラーニューラルネットワークの新たな研究視点として,この基礎的アーキテクチャの物理的妥当性を検証することを目的とする。
関連論文リスト
- SHRP: Specialized Head Routing and Pruning for Efficient Encoder Compression [11.234631528609603]
トランスフォーマーエンコーダは、自然言語理解タスクのための大規模Webサービスに広くデプロイされている。
これらの制限は主にアーキテクチャ上の冗長性、特にアテンションモジュールに起因している。
本稿では,冗長な注意ヘッドを自動的に識別し,除去する新しい構造化プルーニングフレームワークSHRPを提案する。
論文 参考訳(メタデータ) (2025-12-03T05:03:55Z) - ScaleFormer: Span Representation Cumulation for Long-Context Transformer [9.845891949404534]
本稿では,既訓練エンコーダ-デコーダモデルを用いて長いシーケンス処理を行うプラグイン・アンド・プレイフレームワークを提案する。
我々のアプローチは、長い入力を重なり合うチャンクに分割し、デコーダの圧縮されたコンテキスト認識表現を生成する。
長期文書要約実験により,本手法は最先端手法と高い競争力を示し,その性能は高いことがわかった。
論文 参考訳(メタデータ) (2025-11-13T07:05:45Z) - Knowledge-Informed Neural Network for Complex-Valued SAR Image Recognition [51.03674130115878]
本稿では,新しい「圧縮集約圧縮」アーキテクチャ上に構築された軽量なフレームワークであるKnowledge-Informed Neural Network(KINN)を紹介する。
KINNはパラメータ効率の認識における最先端を確立し、データスカースとアウト・オブ・ディストリビューションのシナリオにおいて例外的な一般化を提供する。
論文 参考訳(メタデータ) (2025-10-23T07:12:26Z) - CompGS++: Compressed Gaussian Splatting for Static and Dynamic Scene Representation [60.712165339762116]
CompGS++はコンパクトガウスプリミティブを活用して正確な3Dモデリングを実現する新しいフレームワークである。
私たちの設計は、プリミティブ間の冗長性をなくすという原則に基づいている。
私たちの実装は、さらなる研究を促進するためにGitHubで公開されます。
論文 参考訳(メタデータ) (2025-04-17T15:33:01Z) - ZeroLM: Data-Free Transformer Architecture Search for Language Models [54.83882149157548]
現在の自動プロキシ発見アプローチは、検索時間の拡張、データの過度なオーバーフィットへの感受性、構造的な複雑さに悩まされている。
本稿では,効率的な重み統計によるモデルキャパシティの定量化を目的とした,新しいゼロコストプロキシ手法を提案する。
本評価は,FlexiBERT ベンチマークで Spearman's rho 0.76 と Kendall's tau 0.53 を達成し,このアプローチの優位性を示すものである。
論文 参考訳(メタデータ) (2025-03-24T13:11:22Z) - Hyper-Compression: Model Compression via Hyperfunction [20.47369296713829]
本稿では,モデル圧縮をハイパーファンクションによるパラメータ表現問題に変換する,いわゆるハイパー圧縮を提案する。
これは、既存のプルーニング、量子化、蒸留、分解とは大きく異なるモデル圧縮のための新しいメカニズムを示唆している。
textbfPreferable compression ratio; 2) textbfNo post-hoc retraining; 3) textbfAffordable inference time; and 4) textbfShort compression time。
論文 参考訳(メタデータ) (2024-09-01T02:57:41Z) - MoDeGPT: Modular Decomposition for Large Language Model Compression [59.361006801465344]
本稿では,新しい構造化圧縮フレームワークである textbfModular bfDecomposition (MoDeGPT) を紹介する。
MoDeGPTはTransformerブロックを行列対からなるモジュールに分割し、隠れた次元を減らす。
本実験では, 後方伝播を伴わないMoDeGPTが, 従来の圧縮手法と一致するか, あるいは超えていることを示す。
論文 参考訳(メタデータ) (2024-08-19T01:30:14Z) - Semantic Loss Functions for Neuro-Symbolic Structured Prediction [74.18322585177832]
このような構造に関する知識を象徴的に定義した意味的損失をトレーニングに注入する。
記号の配置に非依存であり、それによって表現される意味論にのみ依存する。
識別型ニューラルモデルと生成型ニューラルモデルの両方と組み合わせることができる。
論文 参考訳(メタデータ) (2024-05-12T22:18:25Z) - Rethinking Reconstruction Autoencoder-Based Out-of-Distribution
Detection [0.0]
リコンストラクションオートエンコーダに基づく手法は、入力再構成誤差を新規性対正規性の計量として用いることでこの問題に対処する。
本稿では, 意味的再構成, データの確実性分解, 正規化L2距離を導入し, 元の手法を大幅に改善する。
提案手法は,追加データや実装の困難さ,時間を要するパイプライン,さらには既知のクラスの分類精度を損なうことなく機能する。
論文 参考訳(メタデータ) (2022-03-04T09:04:55Z) - Toward Compact Parameter Representations for Architecture-Agnostic
Neural Network Compression [26.501979992447605]
本稿では,訓練されたパラメータをコンパクトに表現・保存する観点から,圧縮について検討する。
我々は、画像記述子のために発明された極端損失圧縮法である加法量子化を利用して、パラメータをコンパクトに表現する。
我々は,MobileNet-v2,VGG-11,ResNet-50,Feature Pyramid Networks,および分類,検出,セグメンテーションタスクを訓練したPruned DNNの実験を行った。
論文 参考訳(メタデータ) (2021-11-19T17:03:11Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z) - Reliable Model Compression via Label-Preservation-Aware Loss Functions [14.368823297066276]
本稿では,教師の学習パラダイムを用いてラベルの保存を改善するフレームワークを提案する。
圧縮モデルと参照モデルとのミスマッチ数を最大4.1倍に削減する。
論文 参考訳(メタデータ) (2020-12-03T00:00:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。