論文の概要: Prediction hubs are context-informed frequent tokens in LLMs
- arxiv url: http://arxiv.org/abs/2502.10201v1
- Date: Fri, 14 Feb 2025 14:52:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 14:47:53.677820
- Title: Prediction hubs are context-informed frequent tokens in LLMs
- Title(参考訳): LLMにおける予測ハブは文脈インフォームされた頻出トークンである
- Authors: Beatrix M. G. Nielsen, Iuri Macocco, Marco Baroni,
- Abstract要約: 疎遠性(はちちちち、英: Hubness)は、高次元データに標準距離測定を適用する際に生じる、不均等な点の最も近い近傍の傾向である。
自己回帰型大言語モデル(LLM)は高次元表現で機能するので、それらがハブ性にも影響されるかどうかを問う。
- 参考スコア(独自算出の注目度): 8.12190260443829
- License:
- Abstract: Hubness, the tendency for few points to be among the nearest neighbours of a disproportionate number of other points, commonly arises when applying standard distance measures to high-dimensional data, often negatively impacting distance-based analysis. As autoregressive large language models (LLMs) operate on high-dimensional representations, we ask whether they are also affected by hubness. We first show, theoretically, that the only representation comparison operation performed by LLMs, namely that between context and unembedding vectors to determine continuation probabilities, is not characterized by the concentration of distances phenomenon that typically causes the appeareance of nuisance hubness. We then empirically show that this comparison still leads to a high degree of hubness, but the hubs in this case do not constitute a disturbance. They are rather the result of context-modulated frequent tokens often appearing in the pool of likely candidates for next token prediction. On the other hand, when other distance computations involving LLM representations are performed, we do not have the same theoretical guarantees, and, indeed, we see nuisance hubs appear. In summary, our work highlights, on the one hand, how hubness, while omnipresent in high-dimensional spaces, is not always a negative property that needs to be mitigated, and, on the other hand, it shows that various widely-used LLMs have developed a guessing strategy that consists in constantly assigning a high probability to frequent tokens.
- Abstract(参考訳): しばしば高次元データに標準距離測度を適用すると、しばしば距離に基づく分析に悪影響を及ぼす。
自己回帰型大言語モデル(LLM)は高次元表現で機能するので、それらがハブ性にも影響されるかどうかを問う。
理論的には、LLMが行う唯一の表現比較操作、すなわち連続確率を決定するための文脈ベクトルと非埋め込みベクトルは、通常、ニュアンスハブ性の出現を引き起こす距離現象の集中によって特徴づけられるものではない。
そして、この比較がいまだに高いハブ性をもたらすことを実証的に示すが、この場合のハブは乱れを構成するものではない。
これらはむしろ、次のトークン予測の候補のプールにしばしば現れる、コンテキスト変調された頻繁なトークンの結果である。
一方、LLM表現を含む他の距離計算が実行されると、我々は同じ理論的保証を持たず、実際にニュアンスハブが現れる。
要約すると、高次元空間におけるハブ性は必ずしも否定的な性質であるとは限らないが、しかしながら、様々な広く使われているLCMが常に高い確率を頻繁なトークンに割り当てる予測戦略を開発したことを示している。
関連論文リスト
- Exact full-RSB SAT/UNSAT transition in infinitely wide two-layer neural networks [0.0]
我々は,典型的な状態の重なり合いの有無にかかわらず,グラディエントDescentはキャパシティに到達できないことを示す。
この発見は勾配に基づくアルゴリズムが極めて非定型な状態に偏っていることを示唆している。
論文 参考訳(メタデータ) (2024-10-09T09:41:28Z) - Hyperbolic Fine-tuning for Large Language Models [56.54715487997674]
本研究では,大規模言語モデル(LLM)の非ユークリッド的特徴について検討する。
トークン埋め込みは高い双曲性を示し,埋め込み空間に木のような構造が潜んでいることを示す。
双曲的低ランク効率微調整法HypLoRAを導入し, 双曲的多様体上で直接低ランク適応を行う。
論文 参考訳(メタデータ) (2024-10-05T02:58:25Z) - Anomaly Detection by Context Contrasting [57.695202846009714]
異常検出は、標準から逸脱するサンプルを特定することに焦点を当てる。
近年の自己教師型学習の進歩は、この点において大きな可能性を秘めている。
我々はコンテキスト拡張を通じて学習するCon$を提案する。
論文 参考訳(メタデータ) (2024-05-29T07:59:06Z) - The Uncanny Valley: Exploring Adversarial Robustness from a Flatness Perspective [34.55229189445268]
損失面の平坦性は、一般化と正の相関を持つだけでなく、対向的堅牢性にも関係している。
本稿では,1層のパラメータに対する逆例と相対平坦度の関係を実証的に解析する。
論文 参考訳(メタデータ) (2024-05-27T08:10:46Z) - Learning a Gaussian Mixture for Sparsity Regularization in Inverse
Problems [2.375943263571389]
逆問題では、スパーシティ事前の組み込みは、解に対する正則化効果をもたらす。
本稿では,ガウスの混合として事前に定式化された確率的疎性について提案する。
我々は、このネットワークのパラメータを推定するために、教師なしのトレーニング戦略と教師なしのトレーニング戦略をそれぞれ導入した。
論文 参考訳(メタデータ) (2024-01-29T22:52:57Z) - Learning Linear Causal Representations from Interventions under General
Nonlinear Mixing [52.66151568785088]
介入対象にアクセスできることなく、未知の単一ノード介入を考慮し、強い識別可能性を示す。
これは、ディープニューラルネットワークの埋め込みに対する非ペアの介入による因果識別性の最初の例である。
論文 参考訳(メタデータ) (2023-06-04T02:32:12Z) - Causal Transportability for Visual Recognition [70.13627281087325]
画像とラベルの関連性は、設定間では転送できないため、標準分類器がフェールすることを示す。
次に、すべての共起源を摂食する因果効果が、ドメイン間で不変であることを示す。
これにより、画像分類における因果効果を推定するアルゴリズムを開発する動機付けとなる。
論文 参考訳(メタデータ) (2022-04-26T15:02:11Z) - Generalizing similarity in noisy setups: the DIBS phenomenon [0.0]
この研究は、類似性学習におけるデータ密度、ノイズ、一般化能力の間の相互作用を明らかにする。
コントラスト学習の基本的な形態であるシームズニューラルネットワーク(SNN)を考察し,SNN,Pair Label Noise(PLN),Single Label Noise(SLN)に影響を及ぼす2種類のノイズを探索する。
論文 参考訳(メタデータ) (2022-01-30T12:53:51Z) - The Curse Revisited: a Newly Quantified Concept of Meaningful Distances
for Learning from High-Dimensional Noisy Data [18.113579221265635]
特定の条件下では、この差別が貧弱であるのを観察しても、騒音に影響を受ける実証的な近隣関係は依然として真実である可能性が高い。
この結果の徹底的な実証的検証や、隣人がランダムになったり、不規則になったりした相変化を示す実験は、高次元データの密度雑音による低次元表現を見つけるのに、一般的な次元減少法が不十分あるいは良好に機能する相変化と同一である。
論文 参考訳(メタデータ) (2021-09-22T08:04:15Z) - Deconfounding Scores: Feature Representations for Causal Effect
Estimation with Weak Overlap [140.98628848491146]
推定対象の偏りを伴わずに高い重なりを生じさせる,デコンファウンディングスコアを導入する。
分離スコアは観測データで識別可能なゼロ共分散条件を満たすことを示す。
特に,この手法が標準正規化の魅力的な代替となることを示す。
論文 参考訳(メタデータ) (2021-04-12T18:50:11Z) - Deconfounded Score Method: Scoring DAGs with Dense Unobserved
Confounding [101.35070661471124]
本研究では,観測データ分布に特徴的フットプリントが残っており,突発的・因果的影響を解消できることを示す。
汎用ソルバで実装し,高次元問題へのスケールアップが可能なスコアベース因果検出アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-28T11:07:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。