Fugu-MT 論文翻訳(概要): Stable Anisotropic Regularization

論文の概要: Stable Anisotropic Regularization

arxiv url: http://arxiv.org/abs/2305.19358v2
Date: Fri, 29 Sep 2023 21:23:14 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-03 14:23:46.112669
Title: Stable Anisotropic Regularization
Title（参考訳）: 安定異方性正則化
Authors: William Rudman and Carsten Eickhoff
Abstract要約: 等方性は大規模言語モデル(LLM)にとって望ましい性質であると考えられている I-STARはIsoScore*を用いており、IsoScore*はアイソトロピーの最初の正確な測定値であり、ミニバッチ計算では微分可能で安定である。
参考スコア（独自算出の注目度）: 21.879107165288573
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Given the success of Large Language Models (LLMs), there has been considerable interest in studying the properties of model activations. The literature overwhelmingly agrees that LLM representations are dominated by a few ``outlier dimensions'' with exceedingly high variance and magnitude. Several studies in Natural Language Processing (NLP) have sought to mitigate the impact of such outlier dimensions and force LLMs to be isotropic (i.e., have uniform variance across all dimensions in embedding space). Isotropy is thought to be a desirable property for LLMs that improves model performance and more closely aligns textual representations with human intuition. However, many of the claims regarding isotropy in NLP have been based on the average cosine similarity of embeddings, which has recently been shown to be a flawed measure of isotropy. In this paper, we propose I-STAR: IsoScore*-based STable Anisotropic Regularization, a novel regularization method that can be used to increase or decrease levels of isotropy in embedding space during training. I-STAR uses IsoScore*, the first accurate measure of isotropy that is both differentiable and stable on mini-batch computations. In contrast to several previous works, we find that decreasing isotropy in contextualized embeddings improves performance on the majority of tasks and models considered in this paper.
Abstract（参考訳）: 大規模言語モデル(llm)の成功を考えると、モデルアクティベーションの特性の研究にはかなりの関心が寄せられている。文献は LLM 表現は、非常に高いばらつきと大きさを持つ少数の 'outlier dimensions' によって支配されていることに圧倒的に同意している。自然言語処理(NLP)におけるいくつかの研究は、そのような外接次元の影響を緩和し、LLMを等方性にする(つまり、埋め込み空間におけるすべての次元に均一な分散を持つ)ことを目指している。等方性は、モデル性能を改善し、テキスト表現と人間の直感をより緊密に整合させるLLMにとって望ましい性質であると考えられている。しかし、NLPにおける等方性に関する主張の多くは、埋め込みの平均コサイン類似性に基づいており、これは最近、等方性の欠陥が示されている。本稿では,i-star: isoscore*-based stable anisotropic regularization(i-star: isoscore*-based stable anisotropic regularization)を提案する。 i-star は isoscore* を用いており、これはミニバッチ計算において微分可能かつ安定な等方性の最初の正確な尺度である。従来のいくつかの研究とは対照的に、文脈的埋め込みにおける等方性低下は、本論文で検討したタスクやモデルの大部分の性能を向上させる。

関連論文リスト

Beyond Semantic Entropy: Boosting LLM Uncertainty Quantification with Pairwise Semantic Similarity [15.16188621701658]
大規模な言語モデルにおける幻覚は、典型的にはエントロピーを用いて測定されるモデル出力の不確実性を評価することによって検出することができる。本稿では,近辺のエントロピー推定に着想を得た簡易なブラックボックス不確実性定量法を提案する。また,トークンの確率を組み込むことで,ホワイトボックス設定に容易に拡張することができる。
論文参考訳（メタデータ） (2025-05-30T21:21:05Z)
LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
Shrink the longest: improving latent space isotropy with symplicial geometry [0.0]
本稿では, 簡易幾何学に基づく新しい正規化手法を提案し, 潜在表現の等方性を改善する。本手法は, 微調整時の異方性を大幅に低下させながら, 下流性能の向上につながることを示す。
論文参考訳（メタデータ） (2025-01-09T18:44:10Z)
Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。 Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文参考訳（メタデータ） (2024-10-11T17:01:43Z)
Total Uncertainty Quantification in Inverse PDE Solutions Obtained with Reduced-Order Deep Learning Surrogate Models [50.90868087591973]
機械学習サロゲートモデルを用いて得られた逆PDE解の総不確かさを近似したベイズ近似法を提案する。非線型拡散方程式に対する反復的アンサンブルスムーズおよび深層アンサンブル法との比較により,提案手法を検証した。
論文参考訳（メタデータ） (2024-08-20T19:06:02Z)
REAL Sampling: Boosting Factuality and Diversity of Open-Ended Generation via Asymptotic Entropy [93.8400683020273]
大規模言語モデル(LLM)の復号法は通常、事実性の確保と多様性の維持のトレードオフに苦慮する。核サンプリングにおける事実性および多様性を向上させる復号法であるREALサンプリングを提案する。
論文参考訳（メタデータ） (2024-06-11T21:44:49Z)
Quantifying Emergence in Large Language Models [31.608080868988825]
LLMの出現を推定するための定量化ソリューションを提案する。分子動力学における創発性に着想を得て, ミクロ(トケン)レベルのエントロピー低減とミクロ(セマンティック)レベルのエントロピー低減を比較して, 出現の強さを定量化する。本手法は,テキスト内学習(ICL)と自然文の両方で,一貫した振る舞いを示す。
論文参考訳（メタデータ） (2024-05-21T09:12:20Z)
Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文参考訳（メタデータ） (2024-05-09T09:08:09Z)
The Curse of Memory in Stochastic Approximation: Extended Version [1.534667887016089]
適応制御の初期から、制御システムコミュニティ内で近似の理論と応用が成長してきた。近年の結果, (十分小さい) ステップサイズ$alpha>0$のSAの顕著な性能が確認されている。
論文参考訳（メタデータ） (2023-09-06T12:22:32Z)
Combating Mode Collapse in GANs via Manifold Entropy Estimation [70.06639443446545]
Generative Adversarial Networks (GAN) は、様々なタスクやアプリケーションにおいて魅力的な結果を示している。 GANのモード崩壊問題に対処するための新しいトレーニングパイプラインを提案する。
論文参考訳（メタデータ） (2022-08-25T12:33:31Z)
Building Robust Machine Learning Models for Small Chemical Science Data: The Case of Shear Viscosity [3.4761212729163313]
我々はLennard-Jones (LJ)流体のせん断粘度を予測するために、いくつかの機械学習モデルを訓練する。具体的には,モデル選択,性能評価,不確実性定量化に関する課題について検討した。
論文参考訳（メタデータ） (2022-08-23T07:33:14Z)
Concentration of Non-Isotropic Random Tensors with Applications to Learning and Empirical Risk Minimization [0.0]
ディメンジョンは、最適化手法がデータのサイズに悩まされる現代の学習タスクに固有のボトルネックである。環境よりも有効次元に依存して、これらの次元コストを削減するツールを開発する。本稿では, 学習問題における非等方性特性の活用の重要性について述べる。
論文参考訳（メタデータ） (2021-02-04T17:13:03Z)
IsoBN: Fine-Tuning BERT with Isotropic Batch Normalization [41.267328947683936]
微調整事前学習言語モデル(PTLM)は、自然言語理解(NLU)タスクのパフォーマンス向上のための一般的なプラクティスである。最近の表現学習の進歩は、等方的埋め込みは、より高速な収束とより優れた一般化で下流タスクの性能を著しく向上させることができることを示している。 PTLMにおける事前学習した埋め込みの等方性は, 可視化により解析し, 標準偏差の高分散と, 寸法間の高相関の2つの主要な問題点を指摘した。
論文参考訳（メタデータ） (2020-05-02T11:49:09Z)
Fast approximations in the homogeneous Ising model for use in scene analysis [61.0951285821105]
我々は、推論に必要な量を数値計算できる正確な近似を提供する。近似式はスケーラブルでマルコフランダム場の大きさに満足できないことを示す。機能的磁気共鳴イメージングアクティベーション検出実験においてベイズ推論を行い, ピスタチオ樹収量の年次増加の空間パターンにおける異方性に対する確率比試験を行った。
論文参考訳（メタデータ） (2017-12-06T14:24:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。