論文の概要: Outlier Dimensions Encode Task-Specific Knowledge
- arxiv url: http://arxiv.org/abs/2310.17715v2
- Date: Tue, 23 Jan 2024 18:19:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 19:09:10.311149
- Title: Outlier Dimensions Encode Task-Specific Knowledge
- Title(参考訳): タスク固有の知識をエンコードするoutlier次元
- Authors: William Rudman, Catherine Chen, and Carsten Eickhoff
- Abstract要約: 大規模言語モデル(LLM)における微調整が外乱次元に与える影響について検討する。
結果から,外乱次元は重要なタスク固有の知識を符号化し,一方の外乱次元における表現の値が下流モデル決定を駆動できることが示唆された。
- 参考スコア(独自算出の注目度): 20.2199013945396
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Representations from large language models (LLMs) are known to be dominated
by a small subset of dimensions with exceedingly high variance. Previous works
have argued that although ablating these outlier dimensions in LLM
representations hurts downstream performance, outlier dimensions are
detrimental to the representational quality of embeddings. In this study, we
investigate how fine-tuning impacts outlier dimensions and show that 1) outlier
dimensions that occur in pre-training persist in fine-tuned models and 2) a
single outlier dimension can complete downstream tasks with a minimal error
rate. Our results suggest that outlier dimensions can encode crucial
task-specific knowledge and that the value of a representation in a single
outlier dimension drives downstream model decisions.
- Abstract(参考訳): 大規模言語モデル(LLM)からの表現は、非常に高い分散を持つ次元の小さなサブセットによって支配されていることが知られている。
従来の研究は、LLM表現におけるこれらの外接次元の非難は下流のパフォーマンスを損なうが、外接次元は埋め込みの表現品質に有害であると主張している。
本研究では,微調整が外周寸法に与える影響について検討し,その有効性を示す。
1)事前訓練で発生する外周寸法は微調整モデルで継続する。
2) 1つの外れ値次元は、最小エラー率で下流タスクを完了することができる。
結果から,外乱次元は重要なタスク固有知識を符号化し,一方の外乱次元における表現の値が下流モデル決定を駆動できることが示唆された。
関連論文リスト
- Measuring Orthogonality in Representations of Generative Models [81.13466637365553]
教師なしの表現学習において、モデルは高次元データから低次元の学習表現に不可欠な特徴を蒸留することを目的としている。
独立した生成過程の切り離しは、長い間、高品質な表現を生み出してきた。
我々は、IWO(Importance-Weighted Orthogonality)とIWR(Importance-Weighted Rank)の2つの新しい指標を提案する。
論文 参考訳(メタデータ) (2024-07-04T08:21:54Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - Size-invariance Matters: Rethinking Metrics and Losses for Imbalanced Multi-object Salient Object Detection [133.66006666465447]
現在のメトリクスはサイズに敏感で、大きなオブジェクトが集中し、小さなオブジェクトが無視される傾向があります。
サイズに基づくバイアスは、追加のセマンティック情報なしでは不適切であるため、評価はサイズ不変であるべきだと論じる。
我々は,この目標に適した最適化フレームワークを開発し,異なる大きさのオブジェクトの検出において,大幅な改善を実現した。
論文 参考訳(メタデータ) (2024-05-16T03:01:06Z) - Interpreting the Curse of Dimensionality from Distance Concentration and
Manifold Effect [0.6906005491572401]
まず,高次元データの操作に関する5つの課題を要約する。
次に、次元、距離集中、多様体効果の呪いの2つの主要な原因を掘り下げる。
次元の呪いの原因を解釈することで、現在のモデルやアルゴリズムの限界をよりよく理解することができる。
論文 参考訳(メタデータ) (2023-12-31T08:22:51Z) - Size Lowerbounds for Deep Operator Networks [0.27195102129094995]
我々は、ノイズの多いデータに対する経験的エラーを低減するために必要なDeepONetsのサイズに対して、データ依存の低いバウンドを確立する。
固定モデルサイズにおいて、この共通出力次元の増大を利用してトレーニング誤差の単調な低減を実現するためには、トレーニングデータのサイズが少なくとも2次的にスケールする必要があることを実証する。
論文 参考訳(メタデータ) (2023-08-11T18:26:09Z) - Scaling Laws Do Not Scale [54.72120385955072]
最近の研究によると、データセットのサイズが大きくなると、そのデータセットでトレーニングされたモデルのパフォーマンスが向上する。
このスケーリング法則の関係は、モデルのアウトプットの質を異なる集団がどのように認識するかと一致しないパフォーマンスを測定するために使われる指標に依存する、と我々は主張する。
異なるコミュニティは、互いに緊張関係にある価値を持ち、モデル評価に使用されるメトリクスについて、困難で、潜在的に不可能な選択をもたらす可能性がある。
論文 参考訳(メタデータ) (2023-07-05T15:32:21Z) - High-dimensional Measurement Error Models for Lipschitz Loss [2.6415509201394283]
リプシッツ損失関数のクラスに対する高次元計測誤差モデルを開発する。
我々の推定器は、適切な実現可能な集合に属するすべての推定器の中で、$L_1$ノルムを最小化するように設計されている。
有限標本統計誤差境界と符号の整合性の観点から理論的な保証を導出する。
論文 参考訳(メタデータ) (2022-10-26T20:06:05Z) - Empirical Evaluation of Pre-trained Transformers for Human-Level NLP:
The Role of Sample Size and Dimensionality [6.540382797747107]
RoBERTaは一貫して人間レベルのタスクで最高のパフォーマンスを達成し、PCAはより長いテキストを書くユーザーをよりよく処理する他の削減方法よりも利益をもたらします。
タスクの大部分は、埋め込み寸法の$frac112$で最高のパフォーマンスに匹敵する結果を達成します。
論文 参考訳(メタデータ) (2021-05-07T20:06:24Z) - Evaluating representations by the complexity of learning low-loss
predictors [55.94170724668857]
下流タスクの解決に使用されるデータの表現を評価することの問題点を考察する。
本稿では,関心のあるタスクにおける低損失を実現する表現の上に,予測器を学習する複雑性によって表現の質を測定することを提案する。
論文 参考訳(メタデータ) (2020-09-15T22:06:58Z) - Low-Rank Bottleneck in Multi-head Attention Models [74.83235382203604]
現在のアーキテクチャにおけるヘッド数とヘッドサイズの間のスケーリングは、注目ヘッドの低ランクボトルネックを引き起こします。
本稿では,アテンションユニットの頭部サイズを入力シーケンス長に設定し,ヘッド数に依存しないようにすることを提案する。
論文 参考訳(メタデータ) (2020-02-17T16:16:40Z) - Learning Interpretable Models Using Uncertainty Oracles [12.879371384378164]
解釈可能なモデルの望ましい性質は、人間によって容易に理解できるように、小さなサイズである。
a) 小さいサイズが正確さを暗示し、(b) サイズを制限するモデルファミリが提供するビースルークレバーは、望ましいサイズ精度のトレードオフに達するには不十分である。
論文 参考訳(メタデータ) (2019-06-17T05:53:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。