論文の概要: Stable Anisotropic Regularization
- arxiv url: http://arxiv.org/abs/2305.19358v3
- Date: Thu, 4 Apr 2024 03:04:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 20:42:13.181822
- Title: Stable Anisotropic Regularization
- Title(参考訳): 安定な異方性規則化
- Authors: William Rudman, Carsten Eickhoff,
- Abstract要約: I-STAR: IsoScore*-based STable Anisotropic regularization, a novel regularization method that can can be increase or reduce of isotropy in embedded space during training。
I-STARはIsoScore*を用いており、IsoScore*はアイソトロピーの最初の正確な測定値であり、ミニバッチ計算では微分可能で安定である。
- 参考スコア(独自算出の注目度): 18.52015282224059
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Given the success of Large Language Models (LLMs), there has been considerable interest in studying the properties of model activations. The literature overwhelmingly agrees that LLM representations are dominated by a few "outlier dimensions" with exceedingly high variance and magnitude. Several studies in Natural Language Processing (NLP) have sought to mitigate the impact of such outlier dimensions and force LLMs to be isotropic (i.e., have uniform variance across all dimensions in embedding space). Isotropy is thought to be a desirable property for LLMs that improves model performance and more closely aligns textual representations with human intuition. However, many of the claims regarding isotropy in NLP have been based on the average cosine similarity of embeddings, which has recently been shown to be a flawed measure of isotropy. In this paper, we propose I-STAR: IsoScore*-based STable Anisotropic Regularization, a novel regularization method that can be used to increase or decrease levels of isotropy in embedding space during training. I-STAR uses IsoScore*, the first accurate measure of isotropy that is both differentiable and stable on mini-batch computations. In contrast to several previous works, we find that decreasing isotropy in contextualized embeddings improves performance on the majority of tasks and models considered in this paper.
- Abstract(参考訳): LLM(Large Language Models)の成功を考えると、モデルアクティベーションの特性の研究にかなりの関心が寄せられている。
文献は、LLM表現は、非常に高いばらつきと大きさを持ついくつかの「外界次元」に支配されていることに圧倒的に同意している。
自然言語処理(NLP)におけるいくつかの研究は、そのような外接次元の影響を緩和し、LLMを等方性にする(つまり、埋め込み空間におけるすべての次元に均一な分散を持つ)ことを目指している。
等方性は、モデル性能を改善し、テキスト表現と人間の直感をより緊密に整合させるLLMにとって望ましい性質であると考えられている。
しかし、NLPにおける等方性に関する多くの主張は、埋め込みの平均コサイン類似性に基づいており、これは最近、等方性に欠陥があることが示されている。
本稿では,I-STAR: IsoScore*-based STable Anisotropic Regularizationを提案する。
I-STARはIsoScore*を用いており、IsoScore*はアイソトロピーの最初の正確な測定値であり、ミニバッチ計算では微分可能で安定である。
従来のいくつかの研究とは対照的に、文脈的埋め込みにおける等方性低下は、本論文で検討したタスクやモデルの大部分における性能を向上させることが判明した。
関連論文リスト
- REAL Sampling: Boosting Factuality and Diversity of Open-Ended Generation via Asymptotic Entropy [93.8400683020273]
大規模言語モデル(LLM)の復号法は通常、事実性の確保と多様性の維持のトレードオフに苦慮する。
核サンプリングにおける事実性および多様性を向上させる復号法であるREALサンプリングを提案する。
論文 参考訳(メタデータ) (2024-06-11T21:44:49Z) - SPP: Sparsity-Preserved Parameter-Efficient Fine-Tuning for Large Language Models [53.638791265113625]
空間保存型大規模言語モデルのための効率的な微調整法
コードはhttps://github.com/Lucky-Lance/SPP.comで公開される。
論文 参考訳(メタデータ) (2024-05-25T04:55:27Z) - Quantifying Emergence in Large Language Models [31.608080868988825]
LLMの出現を推定するための定量化ソリューションを提案する。
分子動力学における創発性に着想を得て, ミクロ(トケン)レベルのエントロピー低減とミクロ(セマンティック)レベルのエントロピー低減を比較して, 出現の強さを定量化する。
本手法は,テキスト内学習(ICL)と自然文の両方で,一貫した振る舞いを示す。
論文 参考訳(メタデータ) (2024-05-21T09:12:20Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - The Curse of Memory in Stochastic Approximation: Extended Version [1.534667887016089]
適応制御の初期から、制御システムコミュニティ内で近似の理論と応用が成長してきた。
近年の結果, (十分小さい) ステップサイズ$alpha>0$のSAの顕著な性能が確認されている。
論文 参考訳(メタデータ) (2023-09-06T12:22:32Z) - Combating Mode Collapse in GANs via Manifold Entropy Estimation [70.06639443446545]
Generative Adversarial Networks (GAN) は、様々なタスクやアプリケーションにおいて魅力的な結果を示している。
GANのモード崩壊問題に対処するための新しいトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2022-08-25T12:33:31Z) - Building Robust Machine Learning Models for Small Chemical Science Data:
The Case of Shear Viscosity [3.4761212729163313]
我々はLennard-Jones (LJ)流体のせん断粘度を予測するために、いくつかの機械学習モデルを訓練する。
具体的には,モデル選択,性能評価,不確実性定量化に関する課題について検討した。
論文 参考訳(メタデータ) (2022-08-23T07:33:14Z) - Concentration of Non-Isotropic Random Tensors with Applications to
Learning and Empirical Risk Minimization [0.0]
ディメンジョンは、最適化手法がデータのサイズに悩まされる現代の学習タスクに固有のボトルネックである。
環境よりも有効次元に依存して、これらの次元コストを削減するツールを開発する。
本稿では, 学習問題における非等方性特性の活用の重要性について述べる。
論文 参考訳(メタデータ) (2021-02-04T17:13:03Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z) - IsoBN: Fine-Tuning BERT with Isotropic Batch Normalization [41.267328947683936]
微調整事前学習言語モデル(PTLM)は、自然言語理解(NLU)タスクのパフォーマンス向上のための一般的なプラクティスである。
最近の表現学習の進歩は、等方的埋め込みは、より高速な収束とより優れた一般化で下流タスクの性能を著しく向上させることができることを示している。
PTLMにおける事前学習した埋め込みの等方性は, 可視化により解析し, 標準偏差の高分散と, 寸法間の高相関の2つの主要な問題点を指摘した。
論文 参考訳(メタデータ) (2020-05-02T11:49:09Z) - Fast approximations in the homogeneous Ising model for use in scene
analysis [61.0951285821105]
我々は、推論に必要な量を数値計算できる正確な近似を提供する。
近似式はスケーラブルでマルコフランダム場の大きさに満足できないことを示す。
機能的磁気共鳴イメージングアクティベーション検出実験においてベイズ推論を行い, ピスタチオ樹収量の年次増加の空間パターンにおける異方性に対する確率比試験を行った。
論文 参考訳(メタデータ) (2017-12-06T14:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。