Fugu-MT 論文翻訳(概要): Outlier Dimensions Encode Task-Specific Knowledge

論文の概要: Outlier Dimensions Encode Task-Specific Knowledge

arxiv url: http://arxiv.org/abs/2310.17715v1
Date: Thu, 26 Oct 2023 18:22:13 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-30 16:00:13.149233
Title: Outlier Dimensions Encode Task-Specific Knowledge
Title（参考訳）: タスク固有の知識をエンコードするoutlier次元
Authors: William Rudman, Catherine Chen, and Carsten Eickhoff
Abstract要約: 大規模言語モデル(LLM)における微調整が外乱次元に与える影響について検討する。結果から,外乱次元は重要なタスク固有の知識を符号化し,一方の外乱次元における表現の値が下流モデル決定を駆動できることが示唆された。
参考スコア（独自算出の注目度）: 20.2199013945396
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Representations from large language models (LLMs) are known to be dominated by a small subset of dimensions with exceedingly high variance. Previous works have argued that although ablating these outlier dimensions in LLM representations hurts downstream performance, outlier dimensions are detrimental to the representational quality of embeddings. In this study, we investigate how fine-tuning impacts outlier dimensions and show that 1) outlier dimensions that occur in pre-training persist in fine-tuned models and 2) a single outlier dimension can complete downstream tasks with a minimal error rate. Our results suggest that outlier dimensions can encode crucial task-specific knowledge and that the value of a representation in a single outlier dimension drives downstream model decisions.
Abstract（参考訳）: 大規模言語モデル(LLM)からの表現は、非常に高い分散を持つ次元の小さなサブセットによって支配されていることが知られている。従来の研究は、LLM表現におけるこれらの外接次元の非難は下流のパフォーマンスを損なうが、外接次元は埋め込みの表現品質に有害であると主張している。本研究では,微調整が外周寸法に与える影響について検討し,その有効性を示す。 1)事前訓練で発生する外周寸法は微調整モデルで継続する。 2) 1つの外れ値次元は、最小エラー率で下流タスクを完了することができる。結果から,外乱次元は重要なタスク固有知識を符号化し,一方の外乱次元における表現の値が下流モデル決定を駆動できることが示唆された。

関連論文リスト

Scaling Laws for Embedding Dimension in Information Retrieval [26.21690287784803]
埋め込み次元と検索性能の関係を包括的に分析する。スケーリングの振る舞いは電力法則に適合しており、埋め込み次元のみを考慮して、パフォーマンスのスケーリング法則を導出することができる。評価タスクがトレーニングタスクに沿っている場合, 埋め込みサイズが大きくなるにつれて, 性能が向上し続けていることを示す。
論文参考訳（メタデータ） (2026-02-04T21:27:12Z)
The Blessing and Curse of Dimensionality in Safety Alignment [1.9224072957714322]
高次元表現の呪いが大きな言語モデル(LLM)に一意に影響を及ぼすことを示す。モデル表現を低次元部分空間に投影することで、それらの線形構造を回避しつつアライメントのための十分な情報を保持することができることを示す。
論文参考訳（メタデータ） (2025-07-27T15:51:23Z)
Superposition Yields Robust Neural Scaling [9.278468089636547]
我々は、ニューラルネットワークのスケーリング法則の起源について研究する。損失はモデルサイズによる電力法則として減少する。重畳が弱ければ、最も頻繁な特徴だけが干渉なく表現されることになるが、モデルサイズによる損失のスケーリングは、基礎となる特徴周波数に依存する。表現重畳は、観測されたニューラルネットワークのスケーリング法則の根底にある重要なメカニズムである、と結論付けている。
論文参考訳（メタデータ） (2025-05-15T16:18:13Z)
Outlier dimensions favor frequent tokens in language models [11.112088499182375]
我々は,多くの現代言語モデルにおいて,不規則な次元が出現することを示し,その関数を常に頻繁な単語の予測に遡ることを示す。我々は,多くの異なるモデルによって有用なトークン予測を実装するための特別なメカニズムである,と結論付けている。
論文参考訳（メタデータ） (2025-03-27T17:30:50Z)
LoRA vs Full Fine-tuning: An Illusion of Equivalence [76.11938177294178]
我々は,Low-Rank Adaptation (LoRA) とフルファインタニングによる事前学習モデルについて検討する。特異値分解が全く異なる構造を示すLoRAおよび完全微調整収量行列が得られた。我々は、LoRAが完全な微調整を忘れてはならないという発見を拡張し、その忘れ物は侵入者次元に大きく局所化されていることを発見した。
論文参考訳（メタデータ） (2024-10-28T17:14:01Z)
Measuring Orthogonality in Representations of Generative Models [81.13466637365553]
教師なしの表現学習において、モデルは高次元データから低次元の学習表現に不可欠な特徴を蒸留することを目的としている。独立した生成過程の切り離しは、長い間、高品質な表現を生み出してきた。我々は、IWO(Importance-Weighted Orthogonality)とIWR(Importance-Weighted Rank)の2つの新しい指標を提案する。
論文参考訳（メタデータ） (2024-07-04T08:21:54Z)
Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文参考訳（メタデータ） (2024-05-28T20:43:53Z)
Size-invariance Matters: Rethinking Metrics and Losses for Imbalanced Multi-object Salient Object Detection [133.66006666465447]
現在のメトリクスはサイズに敏感で、大きなオブジェクトが集中し、小さなオブジェクトが無視される傾向があります。サイズに基づくバイアスは、追加のセマンティック情報なしでは不適切であるため、評価はサイズ不変であるべきだと論じる。我々は,この目標に適した最適化フレームワークを開発し,異なる大きさのオブジェクトの検出において,大幅な改善を実現した。
論文参考訳（メタデータ） (2024-05-16T03:01:06Z)
Interpreting the Curse of Dimensionality from Distance Concentration and Manifold Effect [0.6906005491572401]
まず,高次元データの操作に関する5つの課題を要約する。次に、次元、距離集中、多様体効果の呪いの2つの主要な原因を掘り下げる。次元の呪いの原因を解釈することで、現在のモデルやアルゴリズムの限界をよりよく理解することができる。
論文参考訳（メタデータ） (2023-12-31T08:22:51Z)
Size Lowerbounds for Deep Operator Networks [0.27195102129094995]
我々は、ノイズの多いデータに対する経験的エラーを低減するために必要なDeepONetsのサイズに対して、データ依存の低いバウンドを確立する。固定モデルサイズにおいて、この共通出力次元の増大を利用してトレーニング誤差の単調な低減を実現するためには、トレーニングデータのサイズが少なくとも2次的にスケールする必要があることを実証する。
論文参考訳（メタデータ） (2023-08-11T18:26:09Z)
Scaling Laws Do Not Scale [54.72120385955072]
最近の研究によると、データセットのサイズが大きくなると、そのデータセットでトレーニングされたモデルのパフォーマンスが向上する。このスケーリング法則の関係は、モデルのアウトプットの質を異なる集団がどのように認識するかと一致しないパフォーマンスを測定するために使われる指標に依存する、と我々は主張する。異なるコミュニティは、互いに緊張関係にある価値を持ち、モデル評価に使用されるメトリクスについて、困難で、潜在的に不可能な選択をもたらす可能性がある。
論文参考訳（メタデータ） (2023-07-05T15:32:21Z)
High-dimensional Measurement Error Models for Lipschitz Loss [2.6415509201394283]
リプシッツ損失関数のクラスに対する高次元計測誤差モデルを開発する。我々の推定器は、適切な実現可能な集合に属するすべての推定器の中で、$L_1$ノルムを最小化するように設計されている。有限標本統計誤差境界と符号の整合性の観点から理論的な保証を導出する。
論文参考訳（メタデータ） (2022-10-26T20:06:05Z)
Empirical Evaluation of Pre-trained Transformers for Human-Level NLP: The Role of Sample Size and Dimensionality [6.540382797747107]
RoBERTaは一貫して人間レベルのタスクで最高のパフォーマンスを達成し、PCAはより長いテキストを書くユーザーをよりよく処理する他の削減方法よりも利益をもたらします。タスクの大部分は、埋め込み寸法の$frac112$で最高のパフォーマンスに匹敵する結果を達成します。
論文参考訳（メタデータ） (2021-05-07T20:06:24Z)
Evaluating representations by the complexity of learning low-loss predictors [55.94170724668857]
下流タスクの解決に使用されるデータの表現を評価することの問題点を考察する。本稿では,関心のあるタスクにおける低損失を実現する表現の上に,予測器を学習する複雑性によって表現の質を測定することを提案する。
論文参考訳（メタデータ） (2020-09-15T22:06:58Z)
Low-Rank Bottleneck in Multi-head Attention Models [74.83235382203604]
現在のアーキテクチャにおけるヘッド数とヘッドサイズの間のスケーリングは、注目ヘッドの低ランクボトルネックを引き起こします。本稿では,アテンションユニットの頭部サイズを入力シーケンス長に設定し,ヘッド数に依存しないようにすることを提案する。
論文参考訳（メタデータ） (2020-02-17T16:16:40Z)
Learning Interpretable Models Using Uncertainty Oracles [12.879371384378164]
解釈可能なモデルの望ましい性質は、人間によって容易に理解できるように、小さなサイズである。 a) 小さいサイズが正確さを暗示し、(b) サイズを制限するモデルファミリが提供するビースルークレバーは、望ましいサイズ精度のトレードオフに達するには不十分である。
論文参考訳（メタデータ） (2019-06-17T05:53:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。