Fugu-MT 論文翻訳(概要): The Garden of Forking Paths: Observing Dynamic Parameters Distribution in Large Language Models

論文の概要: The Garden of Forking Paths: Observing Dynamic Parameters Distribution in Large Language Models

arxiv url: http://arxiv.org/abs/2403.08739v1
Date: Wed, 13 Mar 2024 17:42:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-14 13:07:09.096505
Title: The Garden of Forking Paths: Observing Dynamic Parameters Distribution in Large Language Models
Title（参考訳）: フォークパスの庭:動的パラメータ分布の観察大規模言語モデルにおいて
Authors: Carlo Nicolini, Jacopo Staiano, Bruno Lepri, Raffaele Marino
Abstract要約: モデルパラメータの統計分布の時間的進化を考えることで、モデルの品質を理解するのに役立つことを提案する。重量分散効果の背景にある要因を実証的に示す。
参考スコア（独自算出の注目度）: 9.02383771689036
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A substantial gap persists in understanding the reasons behind the exceptional performance of the Transformer architecture in NLP. A particularly unexplored area involves the mechanistic description of how the distribution of parameters evolves over time during training. In this work we suggest that looking at the time evolution of the statistic distribution of model parameters, and specifically at bifurcation effects, can help understanding the model quality, potentially reducing training costs and evaluation efforts and empirically showing the reasons behind the effectiveness of weights sparsification.
Abstract（参考訳）: NLPにおけるTransformerアーキテクチャの例外的なパフォーマンスの背景にある理由を理解する上で、大きなギャップが続いている。特に探索されていない領域では、トレーニング中にパラメータの分布が時間とともにどのように進化するかを機械論的に記述する。本研究では,モデルパラメータの統計分布の時間的発展,特に分岐効果を考察することにより,モデル品質の理解,トレーニングコストの削減,評価努力の削減,および重みの分散効果の背景にある理由を実証的に示すことを提案する。

関連論文リスト

Understanding Overadaptation in Supervised Fine-Tuning: The Role of Ensemble Methods [11.695512384798299]
監視された微調整は、基礎モデルを専門的なタスクに適応するための支配的なアプローチである。視覚モデルでは、事前訓練されたモデルと微調整されたモデルを組み合わせることでこの問題を軽減することが示されている。アンサンブルモデルは基礎モデルからの一般的な知識を保持するだけでなく、微調整されたドメイン自体においても、微調整されたモデルよりも優れる。
論文参考訳（メタデータ） (2025-06-02T17:23:16Z)
Weight Spectra Induced Efficient Model Adaptation [54.8615621415845]
微調整された大規模な基礎モデルは、計算コストを禁ずる。微調整が最上位特異値を大きく増幅する一方で,残りはほとんど無傷であることを示す。本稿では,トップ特異方向の学習可能な再スケーリングを利用する新しい手法を提案する。
論文参考訳（メタデータ） (2025-05-29T05:03:29Z)
Model Hemorrhage and the Robustness Limits of Large Language Models [119.46442117681147]
大規模言語モデル(LLM)は、自然言語処理タスク全体で強力なパフォーマンスを示すが、デプロイメント用に修正された場合、大幅なパフォーマンス低下を経験する。この現象をモデル出血(パラメータ変更とアーキテクチャ変更によるパフォーマンス低下)と定義する。
論文参考訳（メタデータ） (2025-03-31T10:16:03Z)
Influence Functions for Scalable Data Attribution in Diffusion Models [52.92223039302037]
拡散モデルは、生成的モデリングに大きな進歩をもたらした。しかし、彼らの普及はデータ属性と解釈可能性に関する課題を引き起こす。本稿では,テキスト・インフルエンス・ファンクション・フレームワークを開発することにより,このような課題に対処することを目的とする。
論文参考訳（メタデータ） (2024-10-17T17:59:02Z)
Robust Domain Generalisation with Causal Invariant Bayesian Neural Networks [9.999199798941424]
本稿では,推論プロセスのメカニズムからデータ分布の学習を阻害するベイズ型ニューラルネットワークを提案する。理論的,実験的に,我々のモデルは因果的介入下での推論に近似していることを示す。
論文参考訳（メタデータ） (2024-10-08T20:38:05Z)
Explanatory Model Monitoring to Understand the Effects of Feature Shifts on Performance [61.06245197347139]
そこで本研究では,機能シフトによるブラックボックスモデルの振る舞いを説明する新しい手法を提案する。本稿では,最適輸送と共有値の概念を組み合わせた提案手法について,説明的性能推定として紹介する。
論文参考訳（メタデータ） (2024-08-24T18:28:19Z)
Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文参考訳（メタデータ） (2024-05-28T20:43:53Z)
On the Impact of Sampling on Deep Sequential State Estimation [17.92198582435315]
逐次モデルにおける状態推定とパラメータ学習は近似手法を用いてうまく行うことができる。モンテカルロの厳密な目的は、生成的モデリング性能を向上させるために文献で提案されている。
論文参考訳（メタデータ） (2023-11-28T17:59:49Z)
A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文参考訳（メタデータ） (2023-11-13T01:48:08Z)
Bias in Evaluation Processes: An Optimization-Based Model [31.790546767744917]
本研究では,タスクに対する個人の実効性分布から観察された分布への変換として評価過程をモデル化する。本研究では,本モデルから生じる分布を特徴付けるとともに,観測された分布に対するパラメータの影響について検討する。実世界のデータセットを組み込むことで、我々のモデルを実証的に検証し、下流選択タスクにおける介入の効果を研究する。
論文参考訳（メタデータ） (2023-10-26T15:45:01Z)
Parameter Estimation in DAGs from Incomplete Data via Optimal Transport [24.740382124473975]
我々は、理論的な枠組みを開発し、我々のアプローチの堅牢性と汎用性を示す広範な実証的な証拠でそれを支援する。提案手法は, 地中構造パラメータを効果的に復元するだけでなく, 下流アプリケーション上でのベースラインの競合よりも, 比較可能か, あるいは優れていることを示す。
論文参考訳（メタデータ） (2023-05-25T10:54:36Z)
Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文参考訳（メタデータ） (2021-10-01T10:03:57Z)
Generalization Properties of Optimal Transport GANs with Latent Distribution Learning [52.25145141639159]
本研究では,潜伏分布とプッシュフォワードマップの複雑さの相互作用が性能に与える影響について検討する。我々の分析に感銘を受けて、我々はGANパラダイム内での潜伏分布とプッシュフォワードマップの学習を提唱した。
論文参考訳（メタデータ） (2020-07-29T07:31:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。