論文の概要: Hessian of Perplexity for Large Language Models by PyTorch autograd (Open Source)
- arxiv url: http://arxiv.org/abs/2504.04520v1
- Date: Sun, 06 Apr 2025 15:37:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:15:33.053247
- Title: Hessian of Perplexity for Large Language Models by PyTorch autograd (Open Source)
- Title(参考訳): PyTorch autograd(オープンソース)による大言語モデルの難解性のヘシアン
- Authors: Ivan Ilin,
- Abstract要約: 我々は,Hessian for Large Language Model(LLM)の少なくとも一部を正確に計算する方法のガイドを提供する。
また、ベクトル・ヘッセン積(HVP)の複数のサンプルを用いて、ヘッセン行列の全対角線を計算する方法を示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Computing the full Hessian matrix -- the matrix of second-order derivatives for an entire Large Language Model (LLM) is infeasible due to its sheer size. In this technical report, we aim to provide a comprehensive guide on how to accurately compute at least a small portion of the Hessian for LLMs using PyTorch autograd library. We also demonstrate how to compute the full diagonal of the Hessian matrix using multiple samples of vector-Hessian Products (HVPs). We hope that both this guide and the accompanying GitHub code will be valuable resources for practitioners and researchers interested in better understanding the behavior and structure of the Hessian in LLMs.
- Abstract(参考訳): 完全ヘッセン行列(英: full Hessian matrix) -- LLM(Large Language Model)全体の2階微分の行列 -- は、その大きさのため実現不可能である。
本稿では,PyTorch オートグレードライブラリを用いた LLM における Hessian の少なくとも一部を正確に計算する方法に関する総合的なガイドを提供する。
また,ベクトル Hessian Products (HVPs) の複数のサンプルを用いて,Hessian行列の全対角線を計算する方法を示した。
私たちは、このガイドと付随するGitHubコードの両方が、LSMにおけるHessianの振る舞いと構造をより深く理解することに関心のある実践者や研究者にとって貴重なリソースになることを期待しています。
関連論文リスト
- Position: Curvature Matrices Should Be Democratized via Linear Operators [6.946287154076936]
線形演算子は、曲率行列を扱う汎用的でスケーラブルでユーザフレンドリな抽象化を提供する。
$textitcurvlinops$は、統一された線形演算子インターフェイスを通じて曲率行列を提供するライブラリである。
私たちは$textitcurvlinops$で、このインターフェースがいかに複雑さを隠蔽し、アプリケーションを単純化し、他のライブラリと相互運用可能で、大規模なNNにスケールするかを示します。
論文 参考訳(メタデータ) (2025-01-31T14:46:30Z) - Understanding Matrix Function Normalizations in Covariance Pooling through the Lens of Riemannian Geometry [63.694184882697435]
グローバル共分散プーリング(GCP)は、高レベルの表現の2階統計を利用して、ディープニューラルネットワーク(DNN)の性能を向上させることが実証されている。
本稿では、リーマン幾何学の観点から行列対数とパワーの包括的かつ統一的な理解を提供する。
論文 参考訳(メタデータ) (2024-07-15T07:11:44Z) - LLM-Vectorizer: LLM-based Verified Loop Vectorizer [12.048697450464935]
大規模言語モデル(LLM)は、個々の配列要素を処理するスカラープログラムからベクトル化されたコードを生成することができる。
LLMは1.1xから9.4xまでのランタイムスピードアップで高性能なベクトルコードを生成することができる。
我々のアプローチでは、TSVCベンチマークデータセットで正しいベクター化の38.2%を検証できる。
論文 参考訳(メタデータ) (2024-06-07T07:04:26Z) - Computational-Statistical Gaps in Gaussian Single-Index Models [77.1473134227844]
単次元モデル(Single-Index Models)は、植木構造における高次元回帰問題である。
我々は,統計的クエリ (SQ) と低遅延多項式 (LDP) フレームワークの両方において,計算効率のよいアルゴリズムが必ずしも$Omega(dkstar/2)$サンプルを必要とすることを示した。
論文 参考訳(メタデータ) (2024-03-08T18:50:19Z) - AlignBench: Benchmarking Chinese Alignment of Large Language Models [99.24597941555277]
中国語大言語モデルのアライメントを評価するための総合ベンチマークであるAlignBenchを紹介する。
我々は,8つの主要なカテゴリ,683の実シナリオ根付きクエリ,およびそれに対応する人間の検証基準を含む,ループ内データキュレーションパイプラインを設計する。
自動評価には,Chain-of-Thoughtを用いた多次元LCM-as-Judgecitezheng2023アジュジング手法を用いて説明と最終評価を生成する。
論文 参考訳(メタデータ) (2023-11-30T17:41:30Z) - Batch-efficient EigenDecomposition for Small and Medium Matrices [65.67315418971688]
EigenDecomposition (ED)は多くのコンピュータビジョンアルゴリズムとアプリケーションの中心にある。
本稿では,コンピュータビジョンの応用シナリオに特化したQRベースのED手法を提案する。
論文 参考訳(メタデータ) (2022-07-09T09:14:12Z) - Learning in High-Dimensional Feature Spaces Using ANOVA-Based Fast
Matrix-Vector Multiplication [0.0]
カーネル行列は一般に密度が高く大規模である。特徴空間の次元によっては、合理的な時間における全てのエントリの計算さえも難しい課題となる。
そこで我々は,ANOVAカーネルを用いて低次元の特徴空間に基づいて複数のカーネルを構築し,行列ベクトル積を実現する高速アルゴリズムを提案する。
特徴グループ化アプローチに基づいて,カーネルリッジ回帰と事前条件付き共役勾配解法を選択する学習手法に,高速な行列ベクトル積を組み込む方法を示す。
論文 参考訳(メタデータ) (2021-11-19T10:29:39Z) - Build your own tensor network library: DMRjulia I. Basic library for the
density matrix renormalization group [0.0]
このコードの焦点はテンソルネットワーク計算に関わる基本的な操作である。
このコードは研究に使えるほど高速で、新しいアルゴリズムを作るのに使える。
論文 参考訳(メタデータ) (2021-09-07T14:31:47Z) - Non-PSD Matrix Sketching with Applications to Regression and
Optimization [56.730993511802865]
非PSDおよび2乗根行列の次元削減法を提案する。
複数のダウンストリームタスクにこれらのテクニックをどのように使用できるかを示す。
論文 参考訳(メタデータ) (2021-06-16T04:07:48Z) - Tensor Relational Algebra for Machine Learning System Design [7.764107702934616]
本稿では、リレーショナルテンソル代数(TRA)と呼ばれる別の実装抽象化を提案する。
TRA は、リレーショナル代数に基づく集合基底代数である。
我々の実証研究は、最適化されたTRAベースのバックエンドが、分散クラスタでMLを実行する際の選択肢を大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2020-09-01T15:51:24Z) - Sketching Transformed Matrices with Applications to Natural Language
Processing [76.6222695417524]
本稿では, 変換行列を用いて, 与えられた小さな行列の積を計算するための空間効率のよいスケッチアルゴリズムを提案する。
提案手法は誤差が小さく,空間と時間の両方で効率がよいことを示す。
論文 参考訳(メタデータ) (2020-02-23T03:07:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。