論文の概要: Prediction hubs are context-informed frequent tokens in LLMs
- arxiv url: http://arxiv.org/abs/2502.10201v2
- Date: Mon, 02 Jun 2025 07:26:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 16:22:43.075606
- Title: Prediction hubs are context-informed frequent tokens in LLMs
- Title(参考訳): LLMにおける予測ハブは文脈インフォームされた頻出トークンである
- Authors: Beatrix M. G. Nielsen, Iuri Macocco, Marco Baroni,
- Abstract要約: ハッチネス(Hubness)は、高次元データに標準距離測定を適用する際に生じる、不均等な他の点の最も近い隣人である。
自己回帰型大言語モデル(LLM)は高次元表現で機能するので、それらがハブ性にも影響されるかどうかを問う。
- 参考スコア(独自算出の注目度): 8.12190260443829
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Hubness, the tendency for a few points to be among the nearest neighbours of a disproportionate number of other points, commonly arises when applying standard distance measures to high-dimensional data, often negatively impacting distance-based analysis. As autoregressive large language models (LLMs) operate on high-dimensional representations, we ask whether they are also affected by hubness. We first prove that the only large-scale representation comparison operation performed by LLMs, namely that between context and unembedding vectors to determine continuation probabilities, is not characterized by the concentration of distances phenomenon that typically causes the appearance of nuisance hubness. We then empirically show that this comparison still leads to a high degree of hubness, but the hubs in this case do not constitute a disturbance. They are rather the result of context-modulated frequent tokens often appearing in the pool of likely candidates for next token prediction. However, when other distances are used to compare LLM representations, we do not have the same theoretical guarantees, and, indeed, we see nuisance hubs appear. There are two main takeaways. First, hubness, while omnipresent in high-dimensional spaces, is not a negative property that needs to be mitigated when LLMs are being used for next token prediction. Second, when comparing representations from LLMs using Euclidean or cosine distance, there is a high risk of nuisance hubs and practitioners should use mitigation techniques if relevant.
- Abstract(参考訳): ハブネス(Hubness)は、高次元データに標準距離測定を適用し、しばしば距離に基づく分析に悪影響を及ぼすときに発生する、不均等な点の最も近い隣人である。
自己回帰型大言語モデル(LLM)は高次元表現で機能するので、それらがハブ性にも影響されるかどうかを問う。
まず,LLMによる大規模表現比較操作,すなわち連続確率を決定するための文脈ベクトルと非埋め込みベクトルは,通常,ニュアンスハブ性の出現を引き起こす距離現象の集中によって特徴づけられるものではないことを証明した。
そして、この比較がいまだに高いハブ性をもたらすことを実証的に示すが、この場合のハブは乱れを構成するものではない。
これらはむしろ、次のトークン予測の候補のプールにしばしば現れる、コンテキスト変調された頻繁なトークンの結果である。
しかし、LLM表現を比較するために他の距離を使用する場合、我々は同じ理論的保証を持っておらず、実際はニュアンスハブが現れる。
主な取扱いは2つある。
第一に、高次元空間において一意に表現されるが、LLMが次のトークン予測に使われているときに緩和される必要のある負の性質ではない。
第2に、ユークリッド距離やコサイン距離を用いてLLMの表現を比較する場合、ニュアンスハブのリスクが高く、実践者は関連性があれば緩和技術を使用するべきである。
関連論文リスト
- Exact full-RSB SAT/UNSAT transition in infinitely wide two-layer neural networks [0.0]
我々は,典型的な状態の重なり合いの有無にかかわらず,グラディエントDescentはキャパシティに到達できないことを示す。
この発見は勾配に基づくアルゴリズムが極めて非定型な状態に偏っていることを示唆している。
論文 参考訳(メタデータ) (2024-10-09T09:41:28Z) - Hyperbolic Fine-tuning for Large Language Models [56.54715487997674]
本研究では,大規模言語モデル(LLM)の非ユークリッド的特徴について検討する。
トークン埋め込みは高い双曲性を示し,埋め込み空間に木のような構造が潜んでいることを示す。
双曲的低ランク効率微調整法HypLoRAを導入し, 双曲的多様体上で直接低ランク適応を行う。
論文 参考訳(メタデータ) (2024-10-05T02:58:25Z) - Anomaly Detection by Context Contrasting [57.695202846009714]
異常検出は、標準から逸脱するサンプルを特定することに焦点を当てる。
近年の自己教師型学習の進歩は、この点において大きな可能性を秘めている。
我々はコンテキスト拡張を通じて学習するCon$を提案する。
論文 参考訳(メタデータ) (2024-05-29T07:59:06Z) - The Uncanny Valley: Exploring Adversarial Robustness from a Flatness Perspective [34.55229189445268]
損失面の平坦性は、一般化と正の相関を持つだけでなく、対向的堅牢性にも関係している。
本稿では,1層のパラメータに対する逆例と相対平坦度の関係を実証的に解析する。
論文 参考訳(メタデータ) (2024-05-27T08:10:46Z) - Learning a Gaussian Mixture for Sparsity Regularization in Inverse
Problems [2.375943263571389]
逆問題では、スパーシティ事前の組み込みは、解に対する正則化効果をもたらす。
本稿では,ガウスの混合として事前に定式化された確率的疎性について提案する。
我々は、このネットワークのパラメータを推定するために、教師なしのトレーニング戦略と教師なしのトレーニング戦略をそれぞれ導入した。
論文 参考訳(メタデータ) (2024-01-29T22:52:57Z) - Learning Linear Causal Representations from Interventions under General
Nonlinear Mixing [52.66151568785088]
介入対象にアクセスできることなく、未知の単一ノード介入を考慮し、強い識別可能性を示す。
これは、ディープニューラルネットワークの埋め込みに対する非ペアの介入による因果識別性の最初の例である。
論文 参考訳(メタデータ) (2023-06-04T02:32:12Z) - Causal Transportability for Visual Recognition [70.13627281087325]
画像とラベルの関連性は、設定間では転送できないため、標準分類器がフェールすることを示す。
次に、すべての共起源を摂食する因果効果が、ドメイン間で不変であることを示す。
これにより、画像分類における因果効果を推定するアルゴリズムを開発する動機付けとなる。
論文 参考訳(メタデータ) (2022-04-26T15:02:11Z) - Generalizing similarity in noisy setups: the DIBS phenomenon [0.0]
この研究は、類似性学習におけるデータ密度、ノイズ、一般化能力の間の相互作用を明らかにする。
コントラスト学習の基本的な形態であるシームズニューラルネットワーク(SNN)を考察し,SNN,Pair Label Noise(PLN),Single Label Noise(SLN)に影響を及ぼす2種類のノイズを探索する。
論文 参考訳(メタデータ) (2022-01-30T12:53:51Z) - The Curse Revisited: a Newly Quantified Concept of Meaningful Distances
for Learning from High-Dimensional Noisy Data [18.113579221265635]
特定の条件下では、この差別が貧弱であるのを観察しても、騒音に影響を受ける実証的な近隣関係は依然として真実である可能性が高い。
この結果の徹底的な実証的検証や、隣人がランダムになったり、不規則になったりした相変化を示す実験は、高次元データの密度雑音による低次元表現を見つけるのに、一般的な次元減少法が不十分あるいは良好に機能する相変化と同一である。
論文 参考訳(メタデータ) (2021-09-22T08:04:15Z) - Deconfounding Scores: Feature Representations for Causal Effect
Estimation with Weak Overlap [140.98628848491146]
推定対象の偏りを伴わずに高い重なりを生じさせる,デコンファウンディングスコアを導入する。
分離スコアは観測データで識別可能なゼロ共分散条件を満たすことを示す。
特に,この手法が標準正規化の魅力的な代替となることを示す。
論文 参考訳(メタデータ) (2021-04-12T18:50:11Z) - Deconfounded Score Method: Scoring DAGs with Dense Unobserved
Confounding [101.35070661471124]
本研究では,観測データ分布に特徴的フットプリントが残っており,突発的・因果的影響を解消できることを示す。
汎用ソルバで実装し,高次元問題へのスケールアップが可能なスコアベース因果検出アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-28T11:07:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。