論文の概要: Jet Expansions of Residual Computation
- arxiv url: http://arxiv.org/abs/2410.06024v1
- Date: Tue, 8 Oct 2024 13:25:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 11:30:40.511809
- Title: Jet Expansions of Residual Computation
- Title(参考訳): 残留計算のジェット膨張
- Authors: Yihong Chen, Xiangxiang Xu, Yao Lu, Pontus Stenetorp, Luca Franceschi,
- Abstract要約: 本稿では,ジェットを用いた残差計算グラフの拡張フレームワークを提案する。
提案手法は,様々な計算経路のコントリビューションを解き散らし,予測をモデル化するための体系的なアプローチを提供する。
- 参考スコア(独自算出の注目度): 25.842534423280185
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a framework for expanding residual computational graphs using jets, operators that generalize truncated Taylor series. Our method provides a systematic approach to disentangle contributions of different computational paths to model predictions. In contrast to existing techniques such as distillation, probing, or early decoding, our expansions rely solely on the model itself and requires no data, training, or sampling from the model. We demonstrate how our framework grounds and subsumes logit lens, reveals a (super-)exponential path structure in the recursive residual depth and opens up several applications. These include sketching a transformer large language model with $n$-gram statistics extracted from its computations, and indexing the models' levels of toxicity knowledge. Our approach enables data-free analysis of residual computation for model interpretability, development, and evaluation.
- Abstract(参考訳): 本稿では, トラッピングされたテイラー級数を一般化するジェット演算子を用いて, 残差計算グラフを拡張するためのフレームワークを提案する。
提案手法は,様々な計算経路のコントリビューションをアンタングルしてモデル予測を行うための体系的なアプローチを提供する。
蒸留、探索、早期復号化といった既存の技術とは対照的に、我々の拡張はモデル自体にのみ依存しており、モデルからのデータ、トレーニング、サンプリングを必要としない。
我々は,我々のフレームワークがロジットレンズを接地し,また,再帰的残差深さにおける(超)指数パス構造を明らかにし,いくつかの応用を開放する様子を実証する。
その中には、その計算から抽出された$n$-gramの統計値を持つトランスフォーマーの大きな言語モデルのスケッチや、モデルの毒性に関する知識のレベルをインデックス化することが含まれる。
本手法はモデル解釈可能性, 開発, 評価のための残差計算のデータフリー解析を可能にする。
関連論文リスト
- Amortizing intractable inference in diffusion models for vision, language, and control [89.65631572949702]
本稿では,p(mathbfx)$以前の拡散生成モデルとブラックボックス制約,あるいは関数$r(mathbfx)$からなるモデルにおいて,データ上の後部サンプルである $mathbfxsim prm post(mathbfx)propto p(mathbfx)r(mathbfx)$について検討する。
我々は,データフリー学習目標である相対軌道バランスの正しさを,サンプルから抽出した拡散モデルの訓練のために証明する。
論文 参考訳(メタデータ) (2024-05-31T16:18:46Z) - Scaling and renormalization in high-dimensional regression [72.59731158970894]
本稿では,様々な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。
本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - Efficient and Generalizable Certified Unlearning: A Hessian-free Recollection Approach [8.875278412741695]
機械学習は、特定のデータを選択的に忘れることを可能にして、データ所有者の権利を忘れないように努力する。
我々は,ベクトル加算操作のみを必要とするため,ほぼ瞬時に未学習を実現するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-04-02T07:54:18Z) - Fusion of Gaussian Processes Predictions with Monte Carlo Sampling [61.31380086717422]
科学と工学において、私たちはしばしば興味のある変数の正確な予測のために設計されたモデルで作業します。
これらのモデルが現実の近似であることを認識し、複数のモデルを同じデータに適用し、結果を統合することが望ましい。
論文 参考訳(メタデータ) (2024-03-03T04:21:21Z) - Discovering Interpretable Physical Models using Symbolic Regression and
Discrete Exterior Calculus [55.2480439325792]
本稿では,記号回帰(SR)と離散指数計算(DEC)を組み合わせて物理モデルの自動発見を行うフレームワークを提案する。
DECは、SRの物理問題への最先端の応用を越えている、場の理論の離散的な類似に対して、ビルディングブロックを提供する。
実験データから連続体物理の3つのモデルを再発見し,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-10-10T13:23:05Z) - Discovering interpretable elastoplasticity models via the neural
polynomial method enabled symbolic regressions [0.0]
従来のニューラルネットワークの弾塑性モデルは、しばしば解釈可能性に欠けると見なされる。
本稿では,人間専門家が解釈可能な数学的モデルを返す2段階の機械学習手法を提案する。
論文 参考訳(メタデータ) (2023-07-24T22:22:32Z) - Generalizing Backpropagation for Gradient-Based Interpretability [103.2998254573497]
モデルの勾配は、半環を用いたより一般的な定式化の特別な場合であることを示す。
この観測により、バックプロパゲーションアルゴリズムを一般化し、他の解釈可能な統計を効率的に計算することができる。
論文 参考訳(メタデータ) (2023-07-06T15:19:53Z) - Interpretable and Scalable Graphical Models for Complex Spatio-temporal
Processes [3.469001874498102]
論文は、複雑な時間構造を持つデータと、解釈可能かつ解釈可能な方法で構造を学ぶ確率的グラフィカルモデルに焦点を当てている。
この方法論の実践的応用は、実際のデータセットを用いて検討される。
これには、データを用いた脳接続分析、太陽画像データを用いた宇宙天気予報、Twitterデータを用いた世論の縦断的分析、TalkLifeデータを用いたメンタルヘルス関連の問題のマイニングが含まれる。
論文 参考訳(メタデータ) (2023-01-15T05:39:30Z) - Generative Principal Component Analysis [47.03792476688768]
生成的モデリング仮定を用いた主成分分析の問題点を考察する。
鍵となる仮定は、基礎となる信号は、$k$次元の入力を持つ$L$-Lipschitz連続生成モデルの範囲に近いことである。
本稿では,2次推定器を提案し,検体数として$m$の次数$sqrtfracklog Lm$の統計率を示す。
論文 参考訳(メタデータ) (2022-03-18T01:48:16Z) - Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。
本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。
次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文 参考訳(メタデータ) (2020-10-25T18:51:15Z) - Predicting Multidimensional Data via Tensor Learning [0.0]
本研究では,本データセットの内在的多次元構造を保持するモデルを開発する。
モデルパラメータを推定するために、オルタネート・リースト・スクエアスアルゴリズムを開発した。
提案モデルは,予測文献に存在するベンチマークモデルより優れている。
論文 参考訳(メタデータ) (2020-02-11T11:57:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。