論文の概要: Beyond Real Weights: Hypercomplex Representations for Stable Quantization
- arxiv url: http://arxiv.org/abs/2512.08524v1
- Date: Tue, 09 Dec 2025 12:10:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.947146
- Title: Beyond Real Weights: Hypercomplex Representations for Stable Quantization
- Title(参考訳): リアルウェイトを超えて: 安定量子化のための超複素表現
- Authors: Jawad Ibn Ahad, Maisha Rahman, Amrijit Biswas, Muhammad Rafsan Kabir, Robin Krambroeckers, Sifat Momen, Nabeel Mohammed, Shafin Rahman,
- Abstract要約: マルチモーダル言語モデル(MLLM)は、高次元視覚特徴を言語表現と整合させるために、大きなパラメータ容量を必要とする。
本稿では,高密度フィードフォワードネットワークブロックを徐々に置き換えることで,これらのモデルを圧縮するプログレッシブリパラメタライゼーション戦略を提案する。
残留スケジュールは、軽量な再構築と知識蒸留の損失と共に、PHMモジュールが訓練中に高密度なモジュールの機能的挙動を継承することを保証する。
- 参考スコア(独自算出の注目度): 6.708338010963415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal language models (MLLMs) require large parameter capacity to align high-dimensional visual features with linguistic representations, making them computationally heavy and difficult to deploy efficiently. We introduce a progressive reparameterization strategy that compresses these models by gradually replacing dense feed-forward network blocks with compact Parameterized Hypercomplex Multiplication (PHM) layers. A residual interpolation schedule, together with lightweight reconstruction and knowledge distillation losses, ensures that the PHM modules inherit the functional behavior of their dense counterparts during training. This transition yields substantial parameter and FLOP reductions while preserving strong multimodal alignment, enabling faster inference without degrading output quality. We evaluate the approach on multiple vision-language models (VLMs). Our method maintains performance comparable to the base models while delivering significant reductions in model size and inference latency. Progressive PHM substitution thus offers an architecture-compatible path toward more efficient multimodal reasoning and complements existing low-bit quantization techniques.
- Abstract(参考訳): マルチモーダル言語モデル(MLLM)は、高次元視覚特徴を言語表現と整合させるために大きなパラメータ容量を必要とするため、計算的に重く、効率的に展開することが困難である。
本稿では,高次フィードフォワードネットワークブロックをコンパクトなパラメータ化ハイパーコンプレックス乗算(PHM)層に徐々に置き換えることで,これらのモデルを圧縮するプログレッシブな再パラメータ化戦略を提案する。
残りの補間スケジュールは、軽量な再構築と知識蒸留の損失と共に、PHMモジュールが訓練中に高密度なモジュールの機能的挙動を継承することを保証している。
この遷移は、強いマルチモーダルアライメントを維持しながら、かなりのパラメータとFLOPの削減をもたらし、出力品質を劣化させることなく高速な推論を可能にする。
マルチビジョン言語モデル(VLM)のアプローチを評価する。
提案手法は,ベースモデルに匹敵する性能を維持しつつ,モデルサイズと推論遅延を大幅に削減する。
したがって、プログレッシブPHM置換は、より効率的なマルチモーダル推論へのアーキテクチャ互換パスを提供し、既存の低ビット量子化技術を補完する。
関連論文リスト
- A Comprehensive Study on Visual Token Redundancy for Discrete Diffusion-based Multimodal Large Language Models [85.30893355216486]
我々は,異なるdMLLMアーキテクチャとタスクを用いて,視覚的トークン冗長性がどのように進化するかを検討する。
本研究により, 視覚的冗長性は, 長時間のタスクを処理しながら, オフスクラッチdMLLMでのみ現れることが明らかとなった。
層スキッピングはAR-to-diffusion dMLLMの加速に有効であるのに対し、プログレッシブプルーニングやレイトステッププルーニングはストクラッチdMLLMよりも効果的である。
論文 参考訳(メタデータ) (2025-11-19T04:13:36Z) - Highly Efficient and Effective LLMs with Multi-Boolean Architectures [5.346271362401715]
大型言語モデル(LLM)の複雑さを軽減するための有望な戦略として、重み二項化が登場した。
既存のアプローチは、単純だが重大なパフォーマンス損失を引き起こす訓練後二項化と、完全精度の潜伏重みに依存し、複雑さと制限効率を追加するトレーニング対応の方法に該当する。
本稿では,マルチカーネルBooleanパラメータでLLMを表現する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-28T19:40:34Z) - LatentLLM: Attention-Aware Joint Tensor Compression [50.33925662486034]
大規模言語モデル(LLM)と大規模マルチモーダルモデル(LMM)は膨大な計算量とメモリ資源を必要とする。
本稿では,LLM/LMMを低次元潜在構造に変換するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-23T22:39:54Z) - Model Hemorrhage and the Robustness Limits of Large Language Models [119.46442117681147]
大規模言語モデル(LLM)は、自然言語処理タスク全体で強力なパフォーマンスを示すが、デプロイメント用に修正された場合、大幅なパフォーマンス低下を経験する。
この現象をモデル出血(パラメータ変更とアーキテクチャ変更によるパフォーマンス低下)と定義する。
論文 参考訳(メタデータ) (2025-03-31T10:16:03Z) - SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding [66.74446220401296]
画像の理解と生成の両方が可能なシンプルだが強力なエンコーダのないMLLMであるSynerGen-VLを提案する。
トークンの折り畳み機構と,高分解能画像理解を効果的に支援するビジョンエキスパートベースのプログレッシブアライメント事前学習戦略を導入する。
コードとモデルはリリースされます。
論文 参考訳(メタデータ) (2024-12-12T18:59:26Z) - p-MoD: Building Mixture-of-Depths MLLMs via Progressive Ratio Decay [20.688382669309096]
p-MoDは、モデル性能を維持しながら、トレーニングと推論のコストを大幅に削減する効率的なMLLMアーキテクチャである。
我々は、Tanh-gateweight normalization (TanhNorm) と symmetric token reweighting (STRing) の2つの新しい設計でMoDモジュールを適応する。
論文 参考訳(メタデータ) (2024-12-05T18:58:03Z) - Pruning Large Language Models to Intra-module Low-rank Architecture with Transitional Activations [21.229296254354878]
本稿では,タスクに依存しない構造化プルーニング手法と,コンパクトなTransformerアーキテクチャ設計を提案する。
提案手法はTransActと呼ばれ,MHA(Multi-head attention)およびMLP(Multi-layer perceptron)モジュール内の遷移活性化を低減する。
その結果, 効率と性能の両面から, 高い圧縮率で提案手法の最適性を検証することができた。
論文 参考訳(メタデータ) (2024-07-08T07:45:38Z) - Optimization of geological carbon storage operations with multimodal latent dynamic model and deep reinforcement learning [1.8549313085249324]
本稿では,高速フロー予測とGCSの制御最適化のためのディープラーニングフレームワークであるMLDモデルを紹介する。
既存のモデルとは異なり、MDDは多様な入力モダリティをサポートし、包括的なデータインタラクションを可能にする。
この手法は従来の手法よりも優れており、計算資源を60%以上削減し、最も高いNPVを達成する。
論文 参考訳(メタデータ) (2024-06-07T01:30:21Z) - Adaptive Multi-Scale Decomposition Framework for Time Series Forecasting [26.141054975797868]
本稿では,時系列予測のための新しい適応型マルチスケール分解(AMD)フレームワークを提案する。
我々のフレームワークは時系列を複数のスケールで異なる時間パターンに分解し、MDM(Multi-Scale Decomposable Mixing)ブロックを活用する。
提案手法は,時間依存性とチャネル依存性の両方を効果的にモデル化し,マルチスケールデータ統合を改良するために自己相関を利用する。
論文 参考訳(メタデータ) (2024-06-06T05:27:33Z) - CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。
LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。
CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文 参考訳(メタデータ) (2023-12-13T07:56:27Z) - Normalizing Flows with Multi-Scale Autoregressive Priors [131.895570212956]
マルチスケール自己回帰前処理(mAR)を通した遅延空間におけるチャネルワイド依存性を導入する。
我々のmARは、分割結合フロー層(mAR-SCF)を持つモデルに先立って、複雑なマルチモーダルデータの依存関係をよりよく捉えます。
我々は,mAR-SCFにより画像生成品質が向上し,FIDとインセプションのスコアは最先端のフローベースモデルと比較して向上したことを示す。
論文 参考訳(メタデータ) (2020-04-08T09:07:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。