論文の概要: Stable Anisotropic Regularization
- arxiv url: http://arxiv.org/abs/2305.19358v2
- Date: Fri, 29 Sep 2023 21:23:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-10-03 14:23:46.112669
- Title: Stable Anisotropic Regularization
- Title(参考訳): 安定異方性正則化
- Authors: William Rudman and Carsten Eickhoff
- Abstract要約: 等方性は大規模言語モデル(LLM)にとって望ましい性質であると考えられている
I-STARはIsoScore*を用いており、IsoScore*はアイソトロピーの最初の正確な測定値であり、ミニバッチ計算では微分可能で安定である。
- 参考スコア(独自算出の注目度): 21.879107165288573
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Given the success of Large Language Models (LLMs), there has been
considerable interest in studying the properties of model activations. The
literature overwhelmingly agrees that LLM representations are dominated by a
few ``outlier dimensions'' with exceedingly high variance and magnitude.
Several studies in Natural Language Processing (NLP) have sought to mitigate
the impact of such outlier dimensions and force LLMs to be isotropic (i.e.,
have uniform variance across all dimensions in embedding space). Isotropy is
thought to be a desirable property for LLMs that improves model performance and
more closely aligns textual representations with human intuition. However, many
of the claims regarding isotropy in NLP have been based on the average cosine
similarity of embeddings, which has recently been shown to be a flawed measure
of isotropy. In this paper, we propose I-STAR: IsoScore*-based STable
Anisotropic Regularization, a novel regularization method that can be used to
increase or decrease levels of isotropy in embedding space during training.
I-STAR uses IsoScore*, the first accurate measure of isotropy that is both
differentiable and stable on mini-batch computations. In contrast to several
previous works, we find that decreasing isotropy in contextualized embeddings
improves performance on the majority of tasks and models considered in this
paper.
- Abstract(参考訳): 大規模言語モデル(llm)の成功を考えると、モデルアクティベーションの特性の研究にはかなりの関心が寄せられている。
文献は LLM 表現は、非常に高いばらつきと大きさを持つ少数の 'outlier dimensions' によって支配されていることに圧倒的に同意している。
自然言語処理(NLP)におけるいくつかの研究は、そのような外接次元の影響を緩和し、LLMを等方性にする(つまり、埋め込み空間におけるすべての次元に均一な分散を持つ)ことを目指している。
等方性は、モデル性能を改善し、テキスト表現と人間の直感をより緊密に整合させるLLMにとって望ましい性質であると考えられている。
しかし、NLPにおける等方性に関する主張の多くは、埋め込みの平均コサイン類似性に基づいており、これは最近、等方性の欠陥が示されている。
本稿では,i-star: isoscore*-based stable anisotropic regularization(i-star: isoscore*-based stable anisotropic regularization)を提案する。
i-star は isoscore* を用いており、これはミニバッチ計算において微分可能かつ安定な等方性の最初の正確な尺度である。
従来のいくつかの研究とは対照的に、文脈的埋め込みにおける等方性低下は、本論文で検討したタスクやモデルの大部分の性能を向上させる。
関連論文リスト
- Entropy-Based Dimension-Free Convergence and Loss-Adaptive Schedules for Diffusion Models [3.2091923314854416]
学習スコア(またはデノイザー)によって駆動される逆時間ダイナミクスを離散化することで拡散生成モデルがサンプルを合成する
我々は、幾何学的仮定を避けるために、次元自由収束に対する情報理論的アプローチを開発する。
また、逆SDEの効率的な離散化のための損失適応スケジュール(LAS)を提案し、これは軽量であり、訓練損失のみに依存している。
論文 参考訳(メタデータ) (2026-01-29T16:28:21Z) - Unregularized Linear Convergence in Zero-Sum Game from Preference Feedback [50.89125374999765]
NLHFにおける最適乗算重み更新(mathtOMWU$)に対する最初の収束保証を提供する。
本分析では, 稀に発生する行動の確率が指数関数的に小さい値から指数関数的に増大する新たな限界収束挙動を同定する。
論文 参考訳(メタデータ) (2025-12-31T12:08:29Z) - The Sign Estimator: LLM Alignment in the Face of Choice Heterogeneity [4.957619545367733]
従来のアライメント手法は、人間の嗜好の不均一性に対して脆弱である。
そこで我々は,手話推定器という,シンプルで,確実に一貫性があり,効率的な推定器を提供する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-10-28T00:42:38Z) - Estimating Semantic Alphabet Size for LLM Uncertainty Quantification [12.029394705620724]
意味エントロピー推定のための改良された意味的アルファベットサイズ推定器を提案する。
サンプルカバレッジに個別の意味エントロピーを調整するために使用すると、より正確な意味エントロピー推定が得られる。
提案するアルファベットサイズ推定器フラグは,近年の上位性能のアプローチよりも,誤ったLDM応答を推定する。
論文 参考訳(メタデータ) (2025-09-17T23:16:39Z) - Adapt in the Wild: Test-Time Entropy Minimization with Sharpness and Feature Regularization [85.50560211492898]
テスト時適応(TTA)は、テストデータが分散シフトが混在している場合、モデルの性能を改善または損なう可能性がある。
これはしばしば、既存のTTAメソッドが現実世界にデプロイされるのを防ぐ重要な障害である。
両面からTTAを安定化させるため,SARと呼ばれる鋭く信頼性の高いエントロピー最小化手法を提案する。
論文 参考訳(メタデータ) (2025-09-05T10:03:00Z) - On Entropy Control in LLM-RL Algorithms [10.71946318944523]
LLM-RL設定におけるエントロピーボーナスの問題について検討した。
自動調整係数を持つ新しいクランプ型エントロピーボーナスを利用するエントロピー制御法であるAEntを提案する。
AEntは、異なるベースモデルとデータセットの下で数学推論タスクでテストされており、AEntがベースラインを一貫して上回ることが観察されている。
論文 参考訳(メタデータ) (2025-09-03T17:23:19Z) - Beyond Semantic Entropy: Boosting LLM Uncertainty Quantification with Pairwise Semantic Similarity [15.16188621701658]
大規模な言語モデルにおける幻覚は、典型的にはエントロピーを用いて測定されるモデル出力の不確実性を評価することによって検出することができる。
本稿では,近辺のエントロピー推定に着想を得た簡易なブラックボックス不確実性定量法を提案する。
また,トークンの確率を組み込むことで,ホワイトボックス設定に容易に拡張することができる。
論文 参考訳(メタデータ) (2025-05-30T21:21:05Z) - LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - Shrink the longest: improving latent space isotropy with symplicial geometry [0.0]
本稿では, 簡易幾何学に基づく新しい正規化手法を提案し, 潜在表現の等方性を改善する。
本手法は, 微調整時の異方性を大幅に低下させながら, 下流性能の向上につながることを示す。
論文 参考訳(メタデータ) (2025-01-09T18:44:10Z) - Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。
本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - Total Uncertainty Quantification in Inverse PDE Solutions Obtained with Reduced-Order Deep Learning Surrogate Models [50.90868087591973]
機械学習サロゲートモデルを用いて得られた逆PDE解の総不確かさを近似したベイズ近似法を提案する。
非線型拡散方程式に対する反復的アンサンブルスムーズおよび深層アンサンブル法との比較により,提案手法を検証した。
論文 参考訳(メタデータ) (2024-08-20T19:06:02Z) - REAL Sampling: Boosting Factuality and Diversity of Open-Ended Generation via Asymptotic Entropy [93.8400683020273]
大規模言語モデル(LLM)の復号法は通常、事実性の確保と多様性の維持のトレードオフに苦慮する。
核サンプリングにおける事実性および多様性を向上させる復号法であるREALサンプリングを提案する。
論文 参考訳(メタデータ) (2024-06-11T21:44:49Z) - Quantifying Emergence in Large Language Models [31.608080868988825]
LLMの出現を推定するための定量化ソリューションを提案する。
分子動力学における創発性に着想を得て, ミクロ(トケン)レベルのエントロピー低減とミクロ(セマンティック)レベルのエントロピー低減を比較して, 出現の強さを定量化する。
本手法は,テキスト内学習(ICL)と自然文の両方で,一貫した振る舞いを示す。
論文 参考訳(メタデータ) (2024-05-21T09:12:20Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - The Curse of Memory in Stochastic Approximation: Extended Version [1.534667887016089]
適応制御の初期から、制御システムコミュニティ内で近似の理論と応用が成長してきた。
近年の結果, (十分小さい) ステップサイズ$alpha>0$のSAの顕著な性能が確認されている。
論文 参考訳(メタデータ) (2023-09-06T12:22:32Z) - Combating Mode Collapse in GANs via Manifold Entropy Estimation [70.06639443446545]
Generative Adversarial Networks (GAN) は、様々なタスクやアプリケーションにおいて魅力的な結果を示している。
GANのモード崩壊問題に対処するための新しいトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2022-08-25T12:33:31Z) - Building Robust Machine Learning Models for Small Chemical Science Data:
The Case of Shear Viscosity [3.4761212729163313]
我々はLennard-Jones (LJ)流体のせん断粘度を予測するために、いくつかの機械学習モデルを訓練する。
具体的には,モデル選択,性能評価,不確実性定量化に関する課題について検討した。
論文 参考訳(メタデータ) (2022-08-23T07:33:14Z) - Concentration of Non-Isotropic Random Tensors with Applications to
Learning and Empirical Risk Minimization [0.0]
ディメンジョンは、最適化手法がデータのサイズに悩まされる現代の学習タスクに固有のボトルネックである。
環境よりも有効次元に依存して、これらの次元コストを削減するツールを開発する。
本稿では, 学習問題における非等方性特性の活用の重要性について述べる。
論文 参考訳(メタデータ) (2021-02-04T17:13:03Z) - IsoBN: Fine-Tuning BERT with Isotropic Batch Normalization [41.267328947683936]
微調整事前学習言語モデル(PTLM)は、自然言語理解(NLU)タスクのパフォーマンス向上のための一般的なプラクティスである。
最近の表現学習の進歩は、等方的埋め込みは、より高速な収束とより優れた一般化で下流タスクの性能を著しく向上させることができることを示している。
PTLMにおける事前学習した埋め込みの等方性は, 可視化により解析し, 標準偏差の高分散と, 寸法間の高相関の2つの主要な問題点を指摘した。
論文 参考訳(メタデータ) (2020-05-02T11:49:09Z) - Fast approximations in the homogeneous Ising model for use in scene
analysis [61.0951285821105]
我々は、推論に必要な量を数値計算できる正確な近似を提供する。
近似式はスケーラブルでマルコフランダム場の大きさに満足できないことを示す。
機能的磁気共鳴イメージングアクティベーション検出実験においてベイズ推論を行い, ピスタチオ樹収量の年次増加の空間パターンにおける異方性に対する確率比試験を行った。
論文 参考訳(メタデータ) (2017-12-06T14:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。