論文の概要: Stable Anisotropic Regularization
- arxiv url: http://arxiv.org/abs/2305.19358v1
- Date: Tue, 30 May 2023 18:57:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 19:57:24.481205
- Title: Stable Anisotropic Regularization
- Title(参考訳): 安定異方性正則化
- Authors: William Rudman and Carsten Eickhoff
- Abstract要約: 等方性は大規模言語モデル(LLM)にとって望ましい性質であると考えられている
I-STARは、IsoScore$star$を使用し、IsoScore$star$は、ミニバッチ計算において微分可能かつ安定である最初の正確な等方性の測定値である。
- 参考スコア(独自算出の注目度): 10.876227844829392
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Given the success of Large Language Models (LLMs), there has been
considerable interest in studying the properties of model activations. The
literature overwhelmingly agrees that LLM representations are dominated by a
few ``outlier dimensions'' with exceedingly high variance and magnitude.
Several studies in Natural Language Processing (NLP) have sought to mitigate
the impact of such outlier dimensions and force LLMs to be isotropic (i.e.,
have uniform variance across all dimensions in embedding space). Isotropy is
thought to be a desirable property for LLMs that improves model performance and
more closely aligns textual representations with human intuition. However, many
of the claims regarding isotropy in NLP have been based on the average cosine
similarity of embeddings, which has recently been shown to be a flawed measure
of isotropy. In this paper, we propose I-STAR: IsoScore$^{\star}$-based STable
Anisotropic Regularization, a novel regularization method that can be used to
increase or decrease levels of isotropy in embedding space during training.
I-STAR uses IsoScore$^{\star}$, the first accurate measure of isotropy that is
both differentiable and stable on mini-batch computations. In contrast to
several previous works, we find that \textit{decreasing} isotropy in
contextualized embeddings improves performance on the majority of tasks and
models considered in this paper.
- Abstract(参考訳): 大規模言語モデル(llm)の成功を考えると、モデルアクティベーションの特性の研究にはかなりの関心が寄せられている。
文献は LLM 表現は、非常に高いばらつきと大きさを持つ少数の 'outlier dimensions' によって支配されていることに圧倒的に同意している。
自然言語処理(NLP)におけるいくつかの研究は、そのような外接次元の影響を緩和し、LLMを等方性にする(つまり、埋め込み空間におけるすべての次元に均一な分散を持つ)ことを目指している。
等方性は、モデル性能を改善し、テキスト表現と人間の直感をより緊密に整合させるLLMにとって望ましい性質であると考えられている。
しかし、NLPにおける等方性に関する主張の多くは、埋め込みの平均コサイン類似性に基づいており、これは最近、等方性の欠陥が示されている。
本稿では,I-STAR: IsoScore$^{\star}$-based STable Anisotropic regularizationを提案する。
I-STARは、IsoScore$^{\star}$を使用し、ミニバッチ計算において微分可能かつ安定である最初の正確な等方性の測定値である。
いくつかの先行研究とは対照的に,コンテキスト化埋め込みにおける \textit{decreasing} 等方性は,本論文で検討したタスクやモデルの大部分のパフォーマンスを向上させる。
関連論文リスト
- Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。
本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - Total Uncertainty Quantification in Inverse PDE Solutions Obtained with Reduced-Order Deep Learning Surrogate Models [50.90868087591973]
機械学習サロゲートモデルを用いて得られた逆PDE解の総不確かさを近似したベイズ近似法を提案する。
非線型拡散方程式に対する反復的アンサンブルスムーズおよび深層アンサンブル法との比較により,提案手法を検証した。
論文 参考訳(メタデータ) (2024-08-20T19:06:02Z) - REAL Sampling: Boosting Factuality and Diversity of Open-Ended Generation via Asymptotic Entropy [93.8400683020273]
大規模言語モデル(LLM)の復号法は通常、事実性の確保と多様性の維持のトレードオフに苦慮する。
核サンプリングにおける事実性および多様性を向上させる復号法であるREALサンプリングを提案する。
論文 参考訳(メタデータ) (2024-06-11T21:44:49Z) - Quantifying Emergence in Large Language Models [31.608080868988825]
LLMの出現を推定するための定量化ソリューションを提案する。
分子動力学における創発性に着想を得て, ミクロ(トケン)レベルのエントロピー低減とミクロ(セマンティック)レベルのエントロピー低減を比較して, 出現の強さを定量化する。
本手法は,テキスト内学習(ICL)と自然文の両方で,一貫した振る舞いを示す。
論文 参考訳(メタデータ) (2024-05-21T09:12:20Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - The Curse of Memory in Stochastic Approximation: Extended Version [1.534667887016089]
適応制御の初期から、制御システムコミュニティ内で近似の理論と応用が成長してきた。
近年の結果, (十分小さい) ステップサイズ$alpha>0$のSAの顕著な性能が確認されている。
論文 参考訳(メタデータ) (2023-09-06T12:22:32Z) - Combating Mode Collapse in GANs via Manifold Entropy Estimation [70.06639443446545]
Generative Adversarial Networks (GAN) は、様々なタスクやアプリケーションにおいて魅力的な結果を示している。
GANのモード崩壊問題に対処するための新しいトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2022-08-25T12:33:31Z) - Building Robust Machine Learning Models for Small Chemical Science Data:
The Case of Shear Viscosity [3.4761212729163313]
我々はLennard-Jones (LJ)流体のせん断粘度を予測するために、いくつかの機械学習モデルを訓練する。
具体的には,モデル選択,性能評価,不確実性定量化に関する課題について検討した。
論文 参考訳(メタデータ) (2022-08-23T07:33:14Z) - Concentration of Non-Isotropic Random Tensors with Applications to
Learning and Empirical Risk Minimization [0.0]
ディメンジョンは、最適化手法がデータのサイズに悩まされる現代の学習タスクに固有のボトルネックである。
環境よりも有効次元に依存して、これらの次元コストを削減するツールを開発する。
本稿では, 学習問題における非等方性特性の活用の重要性について述べる。
論文 参考訳(メタデータ) (2021-02-04T17:13:03Z) - IsoBN: Fine-Tuning BERT with Isotropic Batch Normalization [41.267328947683936]
微調整事前学習言語モデル(PTLM)は、自然言語理解(NLU)タスクのパフォーマンス向上のための一般的なプラクティスである。
最近の表現学習の進歩は、等方的埋め込みは、より高速な収束とより優れた一般化で下流タスクの性能を著しく向上させることができることを示している。
PTLMにおける事前学習した埋め込みの等方性は, 可視化により解析し, 標準偏差の高分散と, 寸法間の高相関の2つの主要な問題点を指摘した。
論文 参考訳(メタデータ) (2020-05-02T11:49:09Z) - Fast approximations in the homogeneous Ising model for use in scene
analysis [61.0951285821105]
我々は、推論に必要な量を数値計算できる正確な近似を提供する。
近似式はスケーラブルでマルコフランダム場の大きさに満足できないことを示す。
機能的磁気共鳴イメージングアクティベーション検出実験においてベイズ推論を行い, ピスタチオ樹収量の年次増加の空間パターンにおける異方性に対する確率比試験を行った。
論文 参考訳(メタデータ) (2017-12-06T14:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。