論文の概要: The Garden of Forking Paths: Observing Dynamic Parameters Distribution
in Large Language Models
- arxiv url: http://arxiv.org/abs/2403.08739v1
- Date: Wed, 13 Mar 2024 17:42:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 13:07:09.096505
- Title: The Garden of Forking Paths: Observing Dynamic Parameters Distribution
in Large Language Models
- Title(参考訳): フォークパスの庭:動的パラメータ分布の観察
大規模言語モデルにおいて
- Authors: Carlo Nicolini, Jacopo Staiano, Bruno Lepri, Raffaele Marino
- Abstract要約: モデルパラメータの統計分布の時間的進化を考えることで、モデルの品質を理解するのに役立つことを提案する。
重量分散効果の背景にある要因を実証的に示す。
- 参考スコア(独自算出の注目度): 9.02383771689036
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A substantial gap persists in understanding the reasons behind the
exceptional performance of the Transformer architecture in NLP. A particularly
unexplored area involves the mechanistic description of how the distribution of
parameters evolves over time during training. In this work we suggest that
looking at the time evolution of the statistic distribution of model
parameters, and specifically at bifurcation effects, can help understanding the
model quality, potentially reducing training costs and evaluation efforts and
empirically showing the reasons behind the effectiveness of weights
sparsification.
- Abstract(参考訳): NLPにおけるTransformerアーキテクチャの例外的なパフォーマンスの背景にある理由を理解する上で、大きなギャップが続いている。
特に探索されていない領域では、トレーニング中にパラメータの分布が時間とともにどのように進化するかを機械論的に記述する。
本研究では,モデルパラメータの統計分布の時間的発展,特に分岐効果を考察することにより,モデル品質の理解,トレーニングコストの削減,評価努力の削減,および重みの分散効果の背景にある理由を実証的に示すことを提案する。
関連論文リスト
- Exploring the Trade-off Between Model Performance and Explanation Plausibility of Text Classifiers Using Human Rationales [3.242050660144211]
ホック後説明可能性法は、ますます複雑なNLPモデルを理解するための重要なツールである。
本稿では,人間の判断を説明するテキストアノテーションをテキスト分類モデルに組み込む手法を提案する。
論文 参考訳(メタデータ) (2024-04-03T22:39:33Z) - Bias Mitigation in Fine-tuning Pre-trained Models for Enhanced Fairness
and Efficiency [26.86557244460215]
新しいタスクにおけるバイアスを軽減するために特別に設計された、効率的で堅牢な微調整フレームワークを導入します。
我々の経験的分析は、異なる人口集団の予測に影響を与える事前学習モデルのパラメータが異なることを示している。
我々は、人口集団間でフィッシャー情報を用いて決定された、これらの影響力のある重みの重要性を中和する伝達学習戦略を採用している。
論文 参考訳(メタデータ) (2024-03-01T16:01:28Z) - Geometric Prior Guided Feature Representation Learning for Long-Tailed
Classification [49.90107582624604]
そこで,本論文では,よく表現されたヘッドクラスの特徴分布の幾何学的情報を活用し,モデルにテールクラスの基盤となる分布を学習させる手法を提案する。
パータード機能は、可能な限りテールクラスの基盤となる分布をカバーし、テスト領域におけるモデルの一般化性能を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-01-21T09:16:29Z) - On the Impact of Sampling on Deep Sequential State Estimation [17.92198582435315]
逐次モデルにおける状態推定とパラメータ学習は近似手法を用いてうまく行うことができる。
モンテカルロの厳密な目的は、生成的モデリング性能を向上させるために文献で提案されている。
論文 参考訳(メタデータ) (2023-11-28T17:59:49Z) - A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。
オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文 参考訳(メタデータ) (2023-11-13T01:48:08Z) - Bias in Evaluation Processes: An Optimization-Based Model [31.790546767744917]
本研究では,タスクに対する個人の実効性分布から観察された分布への変換として評価過程をモデル化する。
本研究では,本モデルから生じる分布を特徴付けるとともに,観測された分布に対するパラメータの影響について検討する。
実世界のデータセットを組み込むことで、我々のモデルを実証的に検証し、下流選択タスクにおける介入の効果を研究する。
論文 参考訳(メタデータ) (2023-10-26T15:45:01Z) - Value-Distributional Model-Based Reinforcement Learning [63.32053223422317]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Generative Causal Representation Learning for Out-of-Distribution Motion
Forecasting [13.99348653165494]
本稿では,分散シフト下での知識伝達を容易にするための生成因果学習表現を提案する。
ヒトの軌道予測モデルにおいて提案手法の有効性を評価する一方、GCRLは他の領域にも適用可能である。
論文 参考訳(メタデータ) (2023-02-17T00:30:44Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - Generalization Properties of Optimal Transport GANs with Latent
Distribution Learning [52.25145141639159]
本研究では,潜伏分布とプッシュフォワードマップの複雑さの相互作用が性能に与える影響について検討する。
我々の分析に感銘を受けて、我々はGANパラダイム内での潜伏分布とプッシュフォワードマップの学習を提唱した。
論文 参考訳(メタデータ) (2020-07-29T07:31:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。