論文の概要: Outlier Dimensions Encode Task-Specific Knowledge
- arxiv url: http://arxiv.org/abs/2310.17715v1
- Date: Thu, 26 Oct 2023 18:22:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 16:00:13.149233
- Title: Outlier Dimensions Encode Task-Specific Knowledge
- Title(参考訳): タスク固有の知識をエンコードするoutlier次元
- Authors: William Rudman, Catherine Chen, and Carsten Eickhoff
- Abstract要約: 大規模言語モデル(LLM)における微調整が外乱次元に与える影響について検討する。
結果から,外乱次元は重要なタスク固有の知識を符号化し,一方の外乱次元における表現の値が下流モデル決定を駆動できることが示唆された。
- 参考スコア(独自算出の注目度): 20.2199013945396
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Representations from large language models (LLMs) are known to be dominated
by a small subset of dimensions with exceedingly high variance. Previous works
have argued that although ablating these outlier dimensions in LLM
representations hurts downstream performance, outlier dimensions are
detrimental to the representational quality of embeddings. In this study, we
investigate how fine-tuning impacts outlier dimensions and show that 1) outlier
dimensions that occur in pre-training persist in fine-tuned models and 2) a
single outlier dimension can complete downstream tasks with a minimal error
rate. Our results suggest that outlier dimensions can encode crucial
task-specific knowledge and that the value of a representation in a single
outlier dimension drives downstream model decisions.
- Abstract(参考訳): 大規模言語モデル(LLM)からの表現は、非常に高い分散を持つ次元の小さなサブセットによって支配されていることが知られている。
従来の研究は、LLM表現におけるこれらの外接次元の非難は下流のパフォーマンスを損なうが、外接次元は埋め込みの表現品質に有害であると主張している。
本研究では,微調整が外周寸法に与える影響について検討し,その有効性を示す。
1)事前訓練で発生する外周寸法は微調整モデルで継続する。
2) 1つの外れ値次元は、最小エラー率で下流タスクを完了することができる。
結果から,外乱次元は重要なタスク固有知識を符号化し,一方の外乱次元における表現の値が下流モデル決定を駆動できることが示唆された。
関連論文リスト
- Interpreting the Curse of Dimensionality from Distance Concentration and
Manifold Effect [0.6906005491572401]
まず,高次元データの操作に関する5つの課題を要約する。
次に、次元、距離集中、多様体効果の呪いの2つの主要な原因を掘り下げる。
次元の呪いの原因を解釈することで、現在のモデルやアルゴリズムの限界をよりよく理解することができる。
論文 参考訳(メタデータ) (2023-12-31T08:22:51Z) - Balancing Act: Constraining Disparate Impact in Sparse Models [20.058720715290434]
本研究では,プルーニングの異なる影響に直接対処する制約付き最適化手法を提案する。
我々の定式化は、各部分群に対する密度モデルとスパースモデルの間の精度変化を束縛する。
実験により,本手法は大規模モデルや数百の保護されたサブグループに関わる問題に対して確実にスケール可能であることが示された。
論文 参考訳(メタデータ) (2023-10-31T17:37:35Z) - Size Lowerbounds for Deep Operator Networks [0.27195102129094995]
我々は、ノイズの多いデータに対する経験的エラーを低減するために必要なDeepONetsのサイズに対して、データ依存の低いバウンドを確立する。
固定モデルサイズにおいて、この共通出力次元の増大を利用してトレーニング誤差の単調な低減を実現するためには、トレーニングデータのサイズが少なくとも2次的にスケールする必要があることを実証する。
論文 参考訳(メタデータ) (2023-08-11T18:26:09Z) - Scaling Laws Do Not Scale [87.76714490248779]
大規模なAIモデルのトレーニングに使用されるデータセットのサイズが大きくなるにつれて、異なるコミュニティの数が増加する可能性がある、と私たちは主張する。
その結果、データセットで表されるコミュニティが、モデルパフォーマンスを評価するために使用されるメトリクスによってキャプチャされない値や嗜好を持つリスクが増大する。
論文 参考訳(メタデータ) (2023-07-05T15:32:21Z) - Inverse Scaling: When Bigger Isn't Better [64.993426536523]
大規模言語モデル(LM)は、スケールの増大による全体的な損失に対する予測可能な改善を示している。
我々は,LMが逆スケーリングや,スケールの増大に伴うタスクパフォーマンスの悪化を示す可能性があるという主張を裏付ける証拠を示す。
論文 参考訳(メタデータ) (2023-06-15T20:11:23Z) - High-dimensional Measurement Error Models for Lipschitz Loss [2.6415509201394283]
リプシッツ損失関数のクラスに対する高次元計測誤差モデルを開発する。
我々の推定器は、適切な実現可能な集合に属するすべての推定器の中で、$L_1$ノルムを最小化するように設計されている。
有限標本統計誤差境界と符号の整合性の観点から理論的な保証を導出する。
論文 参考訳(メタデータ) (2022-10-26T20:06:05Z) - Monotonicity and Double Descent in Uncertainty Estimation with Gaussian
Processes [52.92110730286403]
限界確率はクロスバリデーションの指標を思い起こさせるべきであり、どちらもより大きな入力次元で劣化すべきである、と一般的に信じられている。
我々は,ハイパーパラメータをチューニングすることにより,入力次元と単調に改善できることを証明した。
また、クロスバリデーションの指標は、二重降下の特徴である質的に異なる挙動を示すことも証明した。
論文 参考訳(メタデータ) (2022-10-14T08:09:33Z) - Understanding Factual Errors in Summarization: Errors, Summarizers,
Datasets, Error Detectors [105.12462629663757]
本研究では、既存の9つのデータセットから事実性エラーアノテーションを集約し、基礎となる要約モデルに従ってそれらを階層化する。
本稿では,この階層化ベンチマークにおいて,最近のChatGPTベースの指標を含む最先端の事実性指標の性能を比較し,その性能が様々な種類の要約モデルで大きく異なることを示す。
論文 参考訳(メタデータ) (2022-05-25T15:26:48Z) - Empirical Evaluation of Pre-trained Transformers for Human-Level NLP:
The Role of Sample Size and Dimensionality [6.540382797747107]
RoBERTaは一貫して人間レベルのタスクで最高のパフォーマンスを達成し、PCAはより長いテキストを書くユーザーをよりよく処理する他の削減方法よりも利益をもたらします。
タスクの大部分は、埋め込み寸法の$frac112$で最高のパフォーマンスに匹敵する結果を達成します。
論文 参考訳(メタデータ) (2021-05-07T20:06:24Z) - Evaluating representations by the complexity of learning low-loss
predictors [55.94170724668857]
下流タスクの解決に使用されるデータの表現を評価することの問題点を考察する。
本稿では,関心のあるタスクにおける低損失を実現する表現の上に,予測器を学習する複雑性によって表現の質を測定することを提案する。
論文 参考訳(メタデータ) (2020-09-15T22:06:58Z) - Low-Rank Bottleneck in Multi-head Attention Models [74.83235382203604]
現在のアーキテクチャにおけるヘッド数とヘッドサイズの間のスケーリングは、注目ヘッドの低ランクボトルネックを引き起こします。
本稿では,アテンションユニットの頭部サイズを入力シーケンス長に設定し,ヘッド数に依存しないようにすることを提案する。
論文 参考訳(メタデータ) (2020-02-17T16:16:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。