論文の概要: All or None: Identifiable Linear Properties of Next-token Predictors in Language Modeling
- arxiv url: http://arxiv.org/abs/2410.23501v1
- Date: Wed, 30 Oct 2024 23:19:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 17:03:54.879773
- Title: All or None: Identifiable Linear Properties of Next-token Predictors in Language Modeling
- Title(参考訳): All or None:言語モデリングにおける次トーケン予測子の線形特性の同定
- Authors: Emanuele Marconato, Sébastien Lachapelle, Sebastian Weichwald, Luigi Gresele,
- Abstract要約: 言語モデル間の線形特性のユビキティに関する説明として,識別可能性を分析した。
適切な条件下では、これらの線形特性が分布等価な次トーケン予測器を全てあるいは全く持たないことを示す。
- 参考スコア(独自算出の注目度): 7.334847424898197
- License:
- Abstract: We analyze identifiability as a possible explanation for the ubiquity of linear properties across language models, such as the vector difference between the representations of "easy" and "easiest" being parallel to that between "lucky" and "luckiest". For this, we ask whether finding a linear property in one model implies that any model that induces the same distribution has that property, too. To answer that, we first prove an identifiability result to characterize distribution-equivalent next-token predictors, lifting a diversity requirement of previous results. Second, based on a refinement of relational linearity [Paccanaro and Hinton, 2001; Hernandez et al., 2024], we show how many notions of linearity are amenable to our analysis. Finally, we show that under suitable conditions, these linear properties either hold in all or none distribution-equivalent next-token predictors.
- Abstract(参考訳): 本研究では,言語モデル間の線形特性のユビキティを説明できる可能性として,"easy" と "easest" の表現間のベクトル差が,"lucky" と "luckest" の表現と平行であることを示す。
このために、あるモデルにおける線形性を見つけることは、同じ分布を誘導する任意のモデルが、その性質を持つことを意味するかどうかを問う。
そこで我々はまず,分布等価な次トーケン予測器を特徴付ける識別可能性の証明を行い,従来の結果の多様性要件を引き上げた。
第2に、線形性(Paccanaro and Hinton, 2001; Hernandez et al , 2024] の洗練に基づいて、線形性の概念が我々の分析にどの程度の量で可換であるかを示す。
最後に、適切な条件下では、これらの線形特性は、分布等価な次トーケン予測器を全てあるいは全く持たないことを示す。
関連論文リスト
- On the Origins of Linear Representations in Large Language Models [51.88404605700344]
我々は,次のトークン予測の概念力学を定式化するために,単純な潜在変数モデルを導入する。
実験により、潜在変数モデルと一致するデータから学習すると線形表現が現れることが示された。
また、LLaMA-2大言語モデルを用いて、理論のいくつかの予測を検証した。
論文 参考訳(メタデータ) (2024-03-06T17:17:36Z) - Curvature-informed multi-task learning for graph networks [56.155331323304]
最先端のグラフニューラルネットワークは、複数の特性を同時に予測しようとする。
この現象の潜在的な説明として、各特性の損失面の曲率が大きく異なり、非効率な学習につながる可能性がある。
論文 参考訳(メタデータ) (2022-08-02T18:18:41Z) - Predicting Out-of-Domain Generalization with Neighborhood Invariance [59.05399533508682]
局所変換近傍における分類器の出力不変性の尺度を提案する。
私たちの測度は計算が簡単で、テストポイントの真のラベルに依存しません。
画像分類,感情分析,自然言語推論のベンチマーク実験において,我々の測定値と実際のOOD一般化との間に強い相関関係を示す。
論文 参考訳(メタデータ) (2022-07-05T14:55:16Z) - Rationales for Sequential Predictions [117.93025782838123]
シーケンスモデルは現代のNLPシステムにおいて重要な要素であるが、それらの予測は説明が難しい。
モデル説明は有理だが、個々のモデル予測を説明できる文脈のサブセットを考える。
この目的を近似する効率的なグリードアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-09-14T01:25:15Z) - Performance of Bayesian linear regression in a model with mismatch [8.60118148262922]
本研究では,ガウス先行の対数対数対のベイズ分布の平均値から得られる推定器の性能を解析した。
この推論モデルは、スピングラスにおけるガードナーモデルのバージョンとして記述することができる。
論文 参考訳(メタデータ) (2021-07-14T18:50:13Z) - Obstructing Classification via Projection [2.456909016197174]
バイアス除去の可能なアプローチをモデル化する幾何学的問題について検討する。
優先事項として、各プロパティに従ってデータを分類することが"簡単"であると仮定する。
我々のゴールは、より低次元ユークリッド空間 Rm への適切な射影により、ある性質による分類を妨害することである。
論文 参考訳(メタデータ) (2021-05-19T10:28:15Z) - Why do classifier accuracies show linear trends under distribution
shift? [58.40438263312526]
あるデータ分布上のモデルの精度は、別の分布上の精度のほぼ線形関数である。
2つのモデルが予測で一致する確率は、精度レベルだけで推測できるものよりも高いと仮定します。
分布シフトの大きさが大きければ, 2 つの分布のモデルを評価する場合, 線形傾向が生じなければならない。
論文 参考訳(メタデータ) (2020-12-31T07:24:30Z) - Learning Probabilistic Sentence Representations from Paraphrases [47.528336088976744]
文の分布を生成する確率モデルを定義する。
パラフレーズでモデルをトレーニングし、それらが自然に文の特異性を捉えていることを示す。
本モデルでは,各単語の明瞭度と正確度を抽出する手法を提案する。
論文 参考訳(メタデータ) (2020-05-16T21:10:28Z) - Linear predictor on linearly-generated data with missing values: non
consistency and solutions [0.0]
本研究では,予測対象が全観測データの線形関数である場合について検討する。
不足する値が存在する場合、最適予測器は線形でない可能性があることを示す。
論文 参考訳(メタデータ) (2020-02-03T11:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。