論文の概要: The Garden of Forking Paths: Observing Dynamic Parameters Distribution
in Large Language Models
- arxiv url: http://arxiv.org/abs/2403.08739v1
- Date: Wed, 13 Mar 2024 17:42:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 13:07:09.096505
- Title: The Garden of Forking Paths: Observing Dynamic Parameters Distribution
in Large Language Models
- Title(参考訳): フォークパスの庭:動的パラメータ分布の観察
大規模言語モデルにおいて
- Authors: Carlo Nicolini, Jacopo Staiano, Bruno Lepri, Raffaele Marino
- Abstract要約: モデルパラメータの統計分布の時間的進化を考えることで、モデルの品質を理解するのに役立つことを提案する。
重量分散効果の背景にある要因を実証的に示す。
- 参考スコア(独自算出の注目度): 9.02383771689036
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A substantial gap persists in understanding the reasons behind the
exceptional performance of the Transformer architecture in NLP. A particularly
unexplored area involves the mechanistic description of how the distribution of
parameters evolves over time during training. In this work we suggest that
looking at the time evolution of the statistic distribution of model
parameters, and specifically at bifurcation effects, can help understanding the
model quality, potentially reducing training costs and evaluation efforts and
empirically showing the reasons behind the effectiveness of weights
sparsification.
- Abstract(参考訳): NLPにおけるTransformerアーキテクチャの例外的なパフォーマンスの背景にある理由を理解する上で、大きなギャップが続いている。
特に探索されていない領域では、トレーニング中にパラメータの分布が時間とともにどのように進化するかを機械論的に記述する。
本研究では,モデルパラメータの統計分布の時間的発展,特に分岐効果を考察することにより,モデル品質の理解,トレーニングコストの削減,評価努力の削減,および重みの分散効果の背景にある理由を実証的に示すことを提案する。
関連論文リスト
- Influence Functions for Scalable Data Attribution in Diffusion Models [52.92223039302037]
拡散モデルは、生成的モデリングに大きな進歩をもたらした。
しかし、彼らの普及はデータ属性と解釈可能性に関する課題を引き起こす。
本稿では,テキスト・インフルエンス・ファンクション・フレームワークを開発することにより,このような課題に対処することを目的とする。
論文 参考訳(メタデータ) (2024-10-17T17:59:02Z) - Robust Domain Generalisation with Causal Invariant Bayesian Neural Networks [9.999199798941424]
本稿では,推論プロセスのメカニズムからデータ分布の学習を阻害するベイズ型ニューラルネットワークを提案する。
理論的,実験的に,我々のモデルは因果的介入下での推論に近似していることを示す。
論文 参考訳(メタデータ) (2024-10-08T20:38:05Z) - Explanatory Model Monitoring to Understand the Effects of Feature Shifts on Performance [61.06245197347139]
そこで本研究では,機能シフトによるブラックボックスモデルの振る舞いを説明する新しい手法を提案する。
本稿では,最適輸送と共有値の概念を組み合わせた提案手法について,説明的性能推定として紹介する。
論文 参考訳(メタデータ) (2024-08-24T18:28:19Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - On the Impact of Sampling on Deep Sequential State Estimation [17.92198582435315]
逐次モデルにおける状態推定とパラメータ学習は近似手法を用いてうまく行うことができる。
モンテカルロの厳密な目的は、生成的モデリング性能を向上させるために文献で提案されている。
論文 参考訳(メタデータ) (2023-11-28T17:59:49Z) - A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。
オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文 参考訳(メタデータ) (2023-11-13T01:48:08Z) - Bias in Evaluation Processes: An Optimization-Based Model [31.790546767744917]
本研究では,タスクに対する個人の実効性分布から観察された分布への変換として評価過程をモデル化する。
本研究では,本モデルから生じる分布を特徴付けるとともに,観測された分布に対するパラメータの影響について検討する。
実世界のデータセットを組み込むことで、我々のモデルを実証的に検証し、下流選択タスクにおける介入の効果を研究する。
論文 参考訳(メタデータ) (2023-10-26T15:45:01Z) - Parameter Estimation in DAGs from Incomplete Data via Optimal Transport [24.740382124473975]
我々は、理論的な枠組みを開発し、我々のアプローチの堅牢性と汎用性を示す広範な実証的な証拠でそれを支援する。
提案手法は, 地中構造パラメータを効果的に復元するだけでなく, 下流アプリケーション上でのベースラインの競合よりも, 比較可能か, あるいは優れていることを示す。
論文 参考訳(メタデータ) (2023-05-25T10:54:36Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - Generalization Properties of Optimal Transport GANs with Latent
Distribution Learning [52.25145141639159]
本研究では,潜伏分布とプッシュフォワードマップの複雑さの相互作用が性能に与える影響について検討する。
我々の分析に感銘を受けて、我々はGANパラダイム内での潜伏分布とプッシュフォワードマップの学習を提唱した。
論文 参考訳(メタデータ) (2020-07-29T07:31:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。