論文の概要: How can representation dimension dominate structurally pruned LLMs?
- arxiv url: http://arxiv.org/abs/2503.04377v1
- Date: Thu, 06 Mar 2025 12:28:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 15:58:46.253787
- Title: How can representation dimension dominate structurally pruned LLMs?
- Title(参考訳): 構造的刈り込みLDMはどのように表現次元を支配できるのか?
- Authors: Mingxue Xu, Lisa Alazraki, Danilo P. Mandic,
- Abstract要約: プルーニングは、元のディープニューラルネットワークにサブネットワークが存在すると仮定する。
異なるサブネットワーク抽出によってモデル性能がどう変化するかは明らかでない。
- 参考スコア(独自算出の注目度): 17.953689537875377
- License:
- Abstract: Pruning assumes a subnetwork exists in the original deep neural network, which can achieve comparative model performance with less computation than the original. However, it is unclear how the model performance varies with the different subnetwork extractions. In this paper, we choose the representation dimension (or embedding dimension, model dimension, the dimension of the residual stream in the relevant literature) as the entry point to this issue. We investigate the linear transformations in the LLM transformer blocks and consider a specific structured pruning approach, SliceGPT, to extract the subnetworks of different representation dimensions. We mechanistically analyse the activation flow during the model forward passes, and find the representation dimension dominates the linear transformations, model predictions, and, finally, the model performance. Explicit analytical relations are given to calculate the pruned model performance (perplexity and accuracy) without actual evaluation, and are empirically validated with Llama-3-8B-Instruct and Phi-3-mini-4k-Instruct.
- Abstract(参考訳): プルーニングは、元のディープニューラルネットワークにサブネットワークが存在すると仮定し、元の計算よりも少ない計算で比較モデルのパフォーマンスを達成することができる。
しかし,異なるサブネットワーク抽出によってモデル性能がどう変化するかは明らかでない。
本稿では,本問題のエントリポイントとして,表現次元(あるいは埋め込み次元,モデル次元,関連する文献の残留ストリームの次元)を選択する。
LLMトランスブロックの線形変換について検討し、異なる表現次元のサブネットを抽出するために、特定の構造化プルーニング手法であるSliceGPTを検討する。
我々は,モデル前方通過時のアクティベーションフローを機械的に解析し,表現次元が線形変換,モデル予測,そして最後にモデル性能を支配していることを明らかにする。
Llama-3-8B-InstructとPhi-3-mini-4k-Instructで実験的に検証した。
関連論文リスト
- Instruction-Following Pruning for Large Language Models [58.329978053711024]
我々は、モデルに対する固定的なプルーニングマスクを決定する従来の静的プルーニングアプローチを超えて移動する。
本手法では,プルーニングマスクは入力依存型であり,ユーザ命令に記述された情報に基づいて動的に適応する。
我々の手法は「命令追従プルーニング」と呼ばれ、ユーザ命令を入力とし、与えられたタスクに対して最も関連性の高いモデルパラメータを動的に選択するスパースマスク予測器を導入している。
論文 参考訳(メタデータ) (2025-01-03T20:19:14Z) - Optimization Insights into Deep Diagonal Linear Networks [10.395029724463672]
直交ニューラルネットワークのパラメータを推定するための勾配流"アルゴリズム"の暗黙的正規化特性について検討した。
我々の主な貢献は、この勾配流がモデル上のミラーフローを動的に誘導することであり、これは問題の特定の解に偏っていることを意味する。
論文 参考訳(メタデータ) (2024-12-21T20:23:47Z) - Bilinear Convolution Decomposition for Causal RL Interpretability [0.0]
強化学習(RL)モデルを解釈する試みは、しばしば帰属や探究のような高度な技術に依存している。
本研究では、畳み込みニューラルネットワーク(ConvNets)の非線形性を双線型変種に置き換え、これらの制限に対処可能なモデルのクラスを作成することを提案する。
モデルフリー強化学習環境では,バイリニアモデルの変形が相容れないことを示し,ProcGen環境上での並べ比較を行う。
論文 参考訳(メタデータ) (2024-12-01T19:32:04Z) - Scaling and renormalization in high-dimensional regression [72.59731158970894]
本稿では,様々な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。
本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - A tree-based varying coefficient model [0.0]
本稿では,循環勾配促進機 (CGBM) を用いて変動係数をモデル化した木に基づく変動係数モデル (VCM) を提案する。
次元の早い停止は、次元固有のオーバーフィッティングのリスクを減らすだけでなく、次元間でのモデルの複雑さの違いも明らかにする。
このモデルは、Richman and W"uthrich (2023)で使用されているものと同じシミュレーションおよび実データ例に基づいて評価され、この結果は、彼らのニューラルネットワークベースのVCMであるLocalGLMnetに匹敵するサンプル損失から結果を生成することを示している。
論文 参考訳(メタデータ) (2024-01-11T15:35:32Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Git Re-Basin: Merging Models modulo Permutation Symmetries [3.5450828190071655]
提案手法は,大規模ネットワークに適合する簡単なアルゴリズムを実例で示す。
我々は、独立に訓練されたモデル間のゼロモード接続の最初のデモ(私たちの知る限り)を実演する。
また、線形モード接続仮説の欠点についても論じる。
論文 参考訳(メタデータ) (2022-09-11T10:44:27Z) - Interpretations Steered Network Pruning via Amortized Inferred Saliency
Maps [85.49020931411825]
限られたリソースを持つエッジデバイスにこれらのモデルをデプロイするには、畳み込みニューラルネットワーク(CNN)圧縮が不可欠である。
本稿では,新しい視点からチャネルプルーニング問題に対処するために,モデルの解釈を活用して,プルーニング過程を解析する手法を提案する。
本研究では,実時間スムーズなスムーズなスムーズなスムーズなマスク予測を行うセレクタモデルを導入することで,この問題に対処する。
論文 参考訳(メタデータ) (2022-09-07T01:12:11Z) - Dynamically-Scaled Deep Canonical Correlation Analysis [77.34726150561087]
カノニカル相関解析 (CCA) は, 2つのビューの特徴抽出手法である。
本稿では,入力依存の正準相関モデルをトレーニングするための新しい動的スケーリング手法を提案する。
論文 参考訳(メタデータ) (2022-03-23T12:52:49Z) - Equivariant Deep Dynamical Model for Motion Prediction [0.0]
深層生成モデリングは、データの最も単純化され圧縮された基礎的な記述を見つけるための動的モデリングの強力なアプローチである。
ほとんどの学習タスクは固有の対称性を持ち、すなわち入力変換は出力をそのままにするか、出力が同様の変換を行う。
本稿では, 入力空間の構造的表現を, 対称性の変換とともに変化するという意味で学習する動き予測のためのSO(3)同変深部力学モデル(EqDDM)を提案する。
論文 参考訳(メタデータ) (2021-11-02T21:01:43Z) - Monocular Human Pose and Shape Reconstruction using Part Differentiable
Rendering [53.16864661460889]
近年の研究では、3次元基底真理によって教師されるディープニューラルネットワークを介してパラメトリックモデルを直接推定する回帰に基づく手法が成功している。
本稿では,ボディセグメンテーションを重要な監視対象として紹介する。
部分分割による再構成を改善するために,部分分割により部分ベースモデルを制御可能な部分レベル微分可能部を提案する。
論文 参考訳(メタデータ) (2020-03-24T14:25:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。