論文の概要: Compression is Routing: Reconstruction Error as an Intrinsic Signal for Modular Language Models
- arxiv url: http://arxiv.org/abs/2512.16963v2
- Date: Mon, 22 Dec 2025 05:58:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 14:49:56.314309
- Title: Compression is Routing: Reconstruction Error as an Intrinsic Signal for Modular Language Models
- Title(参考訳): 圧縮がルーティングする:モジュール型言語モデルの固有信号としての再構成誤差
- Authors: Zhongpan Tang,
- Abstract要約: 「この論文は、圧縮は知性である」という前提に基づいている。」
それは新しいアーキテクチャ哲学を提唱している: 圧縮はルーティングである。
超長期のコンテキストを扱うために、VRAM圧縮の新たな視点を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current Large Language Models (LLMs) face three major challenges: context length limitations, high inference costs, and catastrophic forgetting during continual learning. While Mixture-of-Experts (MoE) architectures mitigate some of these conflicts, their routing mechanisms typically rely on explicitly trained auxiliary classifiers. This not only increases system complexity but also often lacks interpretability when handling mixed-domain inputs. Building upon the premise that ``Compression is Intelligence,'' this paper proposes a novel architectural philosophy: Compression is Routing. We trained an 87M-parameter end-to-end Transformer Autoencoder, achieving a 64x sequence length compression (compressing 512 tokens into 8 latent vectors). Experimental results demonstrate that this compressor possesses extreme domain discriminative capability: it achieves a reconstruction accuracy of 99.47% on the in-domain (code) validation set; accuracy drops sharply to 47.76% on a semi-out-of-distribution domain (Wiki text); and further plummets to just 0.57% on a fully out-of-distribution domain (random sequences). This extreme and systematic performance discrepancy establishes the validity of reconstruction error as an Intrinsic Distribution Fingerprint. Based on this, we propose that expert modules can be automatically scheduled using reconstruction residuals directly, without the need for explicit gating networks. This mechanism offers excellent scalability. Furthermore, this architecture provides a new perspective on ``VRAM compression'' for handling ultra-long contexts. This report aims to verify the physical validity of this foundational architecture, offering a new research perspective for the next generation of scalable modular neural networks.
- Abstract(参考訳): 現在のLarge Language Models(LLM)は、コンテキスト長制限、高い推論コスト、継続的な学習における破滅的な忘れという3つの大きな課題に直面しています。
Mixture-of-Experts (MoE) アーキテクチャはこれらの競合のいくつかを緩和するが、それらのルーティング機構は通常、明示的に訓練された補助分類器に依存している。
これはシステムの複雑さを増大させるだけでなく、混合ドメイン入力を扱う際の解釈可能性に欠ける。
この論文は,「圧縮は知性である」という前提に基づいて,新しいアーキテクチャ哲学を提案する。
87Mパラメーターのエンドツーエンドトランスフォーマーオートエンコーダをトレーニングし,64倍のシーケンス長圧縮(512トークンを8つの潜在ベクトルに圧縮)を実現した。
実験の結果、この圧縮機は、ドメイン内(コード)検証セットで99.47%の再現精度を達成し、半配布ドメイン(Wikiテキスト)で47.76%まで精度を急落させ、さらに、完全配布ドメイン(ランダムシーケンス)で0.57%まで低下することがわかった。
この極端かつ体系的な性能差は、本質的な分布フィンガープリントとして再構成誤差の妥当性を確立する。
そこで本稿では, 明示的なゲーティングネットワークを必要とせずに, 復元残差を直接利用して, 専門家モジュールを自動スケジュールする手法を提案する。
このメカニズムは優れたスケーラビリティを提供します。
さらに、このアーキテクチャは超長いコンテキストを扱うために ``VRAM 圧縮' に関する新しい視点を提供する。
本報告は,次世代のスケーラブルなモジュラーニューラルネットワークの新たな研究視点として,この基礎的アーキテクチャの物理的妥当性を検証することを目的とする。
関連論文リスト
- ScaleFormer: Span Representation Cumulation for Long-Context Transformer [9.845891949404534]
本稿では,既訓練エンコーダ-デコーダモデルを用いて長いシーケンス処理を行うプラグイン・アンド・プレイフレームワークを提案する。
我々のアプローチは、長い入力を重なり合うチャンクに分割し、デコーダの圧縮されたコンテキスト認識表現を生成する。
長期文書要約実験により,本手法は最先端手法と高い競争力を示し,その性能は高いことがわかった。
論文 参考訳(メタデータ) (2025-11-13T07:05:45Z) - Knowledge-Informed Neural Network for Complex-Valued SAR Image Recognition [51.03674130115878]
本稿では,新しい「圧縮集約圧縮」アーキテクチャ上に構築された軽量なフレームワークであるKnowledge-Informed Neural Network(KINN)を紹介する。
KINNはパラメータ効率の認識における最先端を確立し、データスカースとアウト・オブ・ディストリビューションのシナリオにおいて例外的な一般化を提供する。
論文 参考訳(メタデータ) (2025-10-23T07:12:26Z) - Hyper-Compression: Model Compression via Hyperfunction [20.47369296713829]
本稿では,モデル圧縮をハイパーファンクションによるパラメータ表現問題に変換する,いわゆるハイパー圧縮を提案する。
これは、既存のプルーニング、量子化、蒸留、分解とは大きく異なるモデル圧縮のための新しいメカニズムを示唆している。
textbfPreferable compression ratio; 2) textbfNo post-hoc retraining; 3) textbfAffordable inference time; and 4) textbfShort compression time。
論文 参考訳(メタデータ) (2024-09-01T02:57:41Z) - MoDeGPT: Modular Decomposition for Large Language Model Compression [59.361006801465344]
本稿では,新しい構造化圧縮フレームワークである textbfModular bfDecomposition (MoDeGPT) を紹介する。
MoDeGPTはTransformerブロックを行列対からなるモジュールに分割し、隠れた次元を減らす。
本実験では, 後方伝播を伴わないMoDeGPTが, 従来の圧縮手法と一致するか, あるいは超えていることを示す。
論文 参考訳(メタデータ) (2024-08-19T01:30:14Z) - Semantic Loss Functions for Neuro-Symbolic Structured Prediction [74.18322585177832]
このような構造に関する知識を象徴的に定義した意味的損失をトレーニングに注入する。
記号の配置に非依存であり、それによって表現される意味論にのみ依存する。
識別型ニューラルモデルと生成型ニューラルモデルの両方と組み合わせることができる。
論文 参考訳(メタデータ) (2024-05-12T22:18:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。