論文の概要: Block removal for large language models through constrained binary optimization
- arxiv url: http://arxiv.org/abs/2602.00161v1
- Date: Thu, 29 Jan 2026 19:46:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.017264
- Title: Block removal for large language models through constrained binary optimization
- Title(参考訳): 制約付きバイナリ最適化による大規模言語モデルのブロック除去
- Authors: David Jansen, Roman Rausch, David Montero, Roman Orus,
- Abstract要約: 本稿では,ブロック除去を物理系にマッピング可能な制約付きバイナリ最適化問題として定式化する。
提案手法は,いくつかのベンチマークにおいて,最先端のブロック除去手法よりも優れていることを示す。
この一般化を最近のNVIDIA-Nemotron-3-Nano-30B-A3B-FP8モデルで説明する。
- 参考スコア(独自算出の注目度): 0.28564598766688487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compressing resource-intensive large language models by removing whole transformer blocks is a seemingly simple idea, but identifying which blocks to remove constitutes an exponentially difficult combinatorial problem. In this paper, we formulate block removal as a constrained binary optimization problem that can be mapped to a physical system (Ising model), whose energies are a strong proxy for downstream model performance. This formulation enables an efficient ranking of a large number of candidate block-removal configurations and yields many high-quality, non-trivial solutions beyond consecutive regions. We demonstrate that our approach outperforms state-of-the-art block-removal methods across several benchmarks, with performance gains persisting after short retraining, and reaching improvements of up to 6 points on the MMLU benchmark. Our method requires only forward and backward passes for a few active parameters, together with an (at least approximate) Ising solver, and can be readily applied to any architecture. We illustrate this generality on the recent NVIDIA-Nemotron-3-Nano-30B-A3B-FP8 model, which exhibits a highly inhomogeneous and challenging block structure.
- Abstract(参考訳): 変圧器ブロック全体を除去することで、資源集約的な大言語モデルを圧縮することは、一見単純なアイデアであるが、どのブロックを除去するかを特定することは、指数関数的に難しい組合せ問題を構成する。
本稿では、下流モデル性能の強力なプロキシである物理系(Isingモデル)にマッピング可能な制約付きバイナリ最適化問題としてブロック除去を定式化する。
この定式化により、多数の候補ブロック除去構成の効率的なランク付けが可能となり、連続する領域を超えて多くの高品質で非自明な解が得られる。
提案手法は,いくつかのベンチマークにおいて最先端のブロック除去手法よりも優れており,短時間の再トレーニング後に性能向上が持続し,MMLUベンチマークでは最大6ポイントの改善が達成されている。
提案手法では,数個のアクティブパラメータに対して,(少なくとも近似的に)Isingソルバとともに前方および後方にのみパスし,任意のアーキテクチャに容易に適用可能である。
この一般化を最近のNVIDIA-Nemotron-3-Nano-30B-A3B-FP8モデルで説明する。
関連論文リスト
- MI-PRUN: Optimize Large Language Model Pruning via Mutual Information [73.6518842907835]
大規模言語モデルのための相互情報に基づくプルーニング手法MI-PRUNを提案する。
隠れ状態の遷移を評価することによって、相互情報を利用して冗長なブロックを識別する。
また,ブロックの組み合わせを反復的に更新し,グローバルな最適解を実現するFast-Block-Selectアルゴリズムを開発した。
論文 参考訳(メタデータ) (2026-01-12T05:06:01Z) - BAMBO: Construct Ability and Efficiency LLM Pareto Set via Bayesian Adaptive Multi-objective Block-wise Optimization [4.196004665145396]
BAMBO(Bayesian Adaptive Multi-objective Block-wise Optimization)は、大規模言語モデル(LLM)を自動的に構築する新しいフレームワークである。
1次元クラスタリング問題として定式化されたこの戦略は、動的プログラミング手法を利用してブロック内およびブロック間情報の分散を最適にバランスさせる。
論文 参考訳(メタデータ) (2025-12-10T15:32:56Z) - MOBIUS: Big-to-Mobile Universal Instance Segmentation via Multi-modal Bottleneck Fusion and Calibrated Decoder Pruning [91.90342432541138]
モデルサイズとトレーニングデータのスケールアップには、インスタンスレベルの知覚のための高度な基盤モデルがある。
資源制約されたプラットフォームにおける高い計算コスト制限。
我々は,高性能コンピューティングプラットフォームとモバイルデバイスの両方において,効率的なセグメンテーションのための新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-10-16T18:00:00Z) - FlexiGPT: Pruning and Extending Large Language Models with Low-Rank Weight Sharing [59.12511498024836]
本稿では,重み付けスコアに基づいてモデルブロックを選択的にプルーする大規模言語モデル(LLM)をプルーする手法を提案する。
重み共有機構を用いて各刈り込みブロックを置換する原理的計量を提案する。
経験的評価は、既存の方法よりも大幅にパフォーマンスが向上したことを示している。
論文 参考訳(メタデータ) (2025-01-24T18:46:37Z) - MultiPruner: Balanced Structure Removal in Foundation Models [1.8434042562191815]
近年,大規模な事前学習モデル (LPM) を刈り取るための最先端手法として,トランスフォーマーにおける非臨界残留ブロックの非臨界除去がモデルサイズ削減に有効であることを実証している。
我々はBlockPrunerを拡張し、MultiPrunerを提案する。
論文 参考訳(メタデータ) (2025-01-17T04:24:31Z) - Scalable iterative pruning of large language and vision models using block coordinate descent [0.31410859223862103]
重みの一部を除去するプルーニングニューラルネットワークは、しばしば高い精度を維持しながら、少なくとも一定の限界まで、モデルの複雑さを著しく低減する。
本稿では,Y Combinatorial Brain Surgeonに基づくニューラルネットワークのプルーニング手法を提案するが,ネットワーク重みのサブセットに対する最適化問題を反復的,ブロック的に解決する。
論文 参考訳(メタデータ) (2024-11-26T17:54:02Z) - Symmetric Tensor Networks for Generative Modeling and Constrained
Combinatorial Optimization [72.41480594026815]
ポートフォリオ最適化からロジスティクスに至るまで、制約付き最適化問題は業界に多い。
これらの問題の解決における主要な障害の1つは、有効な検索空間を制限する非自明なハード制約の存在である。
本研究では、Ax=bという形の任意の整数値等式制約をU(1)対称ネットワーク(TN)に直接エンコードし、それらの適用性を量子に着想を得た生成モデルとして活用する。
論文 参考訳(メタデータ) (2022-11-16T18:59:54Z) - Accurate and Lightweight Image Super-Resolution with Model-Guided Deep
Unfolding Network [63.69237156340457]
我々は、モデル誘導深部展開ネットワーク(MoG-DUN)と呼ばれるSISRに対する説明可能なアプローチを提示し、提唱する。
MoG-DUNは正確(エイリアスを少なくする)、計算効率(モデルパラメータを減らした)、多用途(多重劣化を処理できる)である。
RCAN, SRDNF, SRFBNを含む既存の最先端画像手法に対するMoG-DUN手法の優位性は、いくつかの一般的なデータセットと様々な劣化シナリオに関する広範な実験によって実証されている。
論文 参考訳(メタデータ) (2020-09-14T08:23:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。