Fugu-MT 論文翻訳(概要): Prediction hubs are context-informed frequent tokens in LLMs

論文の概要: Prediction hubs are context-informed frequent tokens in LLMs

arxiv url: http://arxiv.org/abs/2502.10201v1
Date: Fri, 14 Feb 2025 14:52:41 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-17 19:47:35.761186
Title: Prediction hubs are context-informed frequent tokens in LLMs
Title（参考訳）: LLMにおける予測ハブは文脈インフォームされた頻出トークンである
Authors: Beatrix M. G. Nielsen, Iuri Macocco, Marco Baroni,
Abstract要約: 疎遠性(はちちちち、英: Hubness)は、高次元データに標準距離測定を適用する際に生じる、不均等な点の最も近い近傍の傾向である。自己回帰型大言語モデル(LLM)は高次元表現で機能するので、それらがハブ性にも影響されるかどうかを問う。
参考スコア（独自算出の注目度）: 8.12190260443829
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Hubness, the tendency for few points to be among the nearest neighbours of a disproportionate number of other points, commonly arises when applying standard distance measures to high-dimensional data, often negatively impacting distance-based analysis. As autoregressive large language models (LLMs) operate on high-dimensional representations, we ask whether they are also affected by hubness. We first show, theoretically, that the only representation comparison operation performed by LLMs, namely that between context and unembedding vectors to determine continuation probabilities, is not characterized by the concentration of distances phenomenon that typically causes the appeareance of nuisance hubness. We then empirically show that this comparison still leads to a high degree of hubness, but the hubs in this case do not constitute a disturbance. They are rather the result of context-modulated frequent tokens often appearing in the pool of likely candidates for next token prediction. On the other hand, when other distance computations involving LLM representations are performed, we do not have the same theoretical guarantees, and, indeed, we see nuisance hubs appear. In summary, our work highlights, on the one hand, how hubness, while omnipresent in high-dimensional spaces, is not always a negative property that needs to be mitigated, and, on the other hand, it shows that various widely-used LLMs have developed a guessing strategy that consists in constantly assigning a high probability to frequent tokens.
Abstract（参考訳）: しばしば高次元データに標準距離測度を適用すると、しばしば距離に基づく分析に悪影響を及ぼす。自己回帰型大言語モデル(LLM)は高次元表現で機能するので、それらがハブ性にも影響されるかどうかを問う。理論的には、LLMが行う唯一の表現比較操作、すなわち連続確率を決定するための文脈ベクトルと非埋め込みベクトルは、通常、ニュアンスハブ性の出現を引き起こす距離現象の集中によって特徴づけられるものではない。そして、この比較がいまだに高いハブ性をもたらすことを実証的に示すが、この場合のハブは乱れを構成するものではない。これらはむしろ、次のトークン予測の候補のプールにしばしば現れる、コンテキスト変調された頻繁なトークンの結果である。一方、LLM表現を含む他の距離計算が実行されると、我々は同じ理論的保証を持たず、実際にニュアンスハブが現れる。要約すると、高次元空間におけるハブ性は必ずしも否定的な性質であるとは限らないが、しかしながら、様々な広く使われているLCMが常に高い確率を頻繁なトークンに割り当てる予測戦略を開発したことを示している。

関連論文リスト

Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文参考訳（メタデータ） (2025-06-16T10:32:10Z)
Enough Coin Flips Can Make LLMs Act Bayesian [71.79085204454039]
大規模言語モデル(LLMs)は、入力プロンプトで与えられた少数ショットの例を一般化する能力を示しており、これはICL(In-context Learning)として知られる創発的能力である。 LLM が ICL を用いて,ベイズフレームワークと整合性のある構造的推論を行うか,パターンマッチングに依存するかを検討する。
論文参考訳（メタデータ） (2025-03-06T18:59:23Z)
Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文参考訳（メタデータ） (2025-02-03T17:13:03Z)
Forking Paths in Neural Text Generation [14.75166317633176]
テキスト生成の個々のトークンにまたがる不確実性のダイナミクスを表現するための新しいアプローチを開発する。 4つの領域にわたる7つのタスクにおけるLLM応答の解析に本手法を用いる。句読点などの驚くべきものを含む、トークンをフォークする多くの例を見出す。
論文参考訳（メタデータ） (2024-12-10T22:57:57Z)
Post-hoc Probabilistic Vision-Language Models [51.12284891724463]
視覚言語モデル(VLM)は、分類、検索、生成タスクにおいて顕著な成功を収めている。追加トレーニングを必要としないVLMにおけるポストホック不確実性評価を提案する。この結果から,大規模モデルの安全性クリティカルな応用が期待できることがわかった。
論文参考訳（メタデータ） (2024-12-08T18:16:13Z)
Exact full-RSB SAT/UNSAT transition in infinitely wide two-layer neural networks [0.0]
我々は,典型的な状態の重なり合いの有無にかかわらず,グラディエントDescentはキャパシティに到達できないことを示す。この発見は勾配に基づくアルゴリズムが極めて非定型な状態に偏っていることを示唆している。
論文参考訳（メタデータ） (2024-10-09T09:41:28Z)
Hyperbolic Fine-tuning for Large Language Models [56.54715487997674]
本研究では,大規模言語モデル(LLM)の非ユークリッド的特徴について検討する。トークン埋め込みは高い双曲性を示し,埋め込み空間に木のような構造が潜んでいることを示す。双曲的低ランク効率微調整法HypLoRAを導入し, 双曲的多様体上で直接低ランク適応を行う。
論文参考訳（メタデータ） (2024-10-05T02:58:25Z)
Mitigating Boundary Ambiguity and Inherent Bias for Text Classification in the Era of Large Language Models [24.085614720512744]
本研究では,大規模言語モデル (LLM) がテキスト分類における選択肢の数や配置の変化に対して脆弱であることを示す。重要なボトルネックは、曖昧な決定境界と、特定のトークンや位置に対する固有のバイアスから生じます。我々のアプローチは、ペア比較が境界のあいまいさと固有のバイアスを効果的に緩和できるという経験的観察に基づいている。
論文参考訳（メタデータ） (2024-06-11T06:53:19Z)
Anomaly Detection by Context Contrasting [57.695202846009714]
異常検出は、標準から逸脱するサンプルを特定することに焦点を当てる。近年の自己教師型学習の進歩は、この点において大きな可能性を秘めている。我々はコンテキスト拡張を通じて学習するCon$を提案する。
論文参考訳（メタデータ） (2024-05-29T07:59:06Z)
The Uncanny Valley: Exploring Adversarial Robustness from a Flatness Perspective [34.55229189445268]
損失面の平坦性は、一般化と正の相関を持つだけでなく、対向的堅牢性にも関係している。本稿では,1層のパラメータに対する逆例と相対平坦度の関係を実証的に解析する。
論文参考訳（メタデータ） (2024-05-27T08:10:46Z)
Learning a Gaussian Mixture for Sparsity Regularization in Inverse Problems [2.375943263571389]
逆問題では、スパーシティ事前の組み込みは、解に対する正則化効果をもたらす。本稿では,ガウスの混合として事前に定式化された確率的疎性について提案する。我々は、このネットワークのパラメータを推定するために、教師なしのトレーニング戦略と教師なしのトレーニング戦略をそれぞれ導入した。
論文参考訳（メタデータ） (2024-01-29T22:52:57Z)
Bridging the Projection Gap: Overcoming Projection Bias Through Parameterized Distance Learning [9.26015904497319]
Generalized Zero-shot Learning (GZSL) は、見知らぬクラスと見えないクラスの両方からのサンプルを、学習用のクラスサンプルのみを使用して認識することを目的としている。 GZSL法は、投射関数が観測クラスから学習されるため、推論中に観測クラスに偏りが生じる傾向にある。我々はこの予測バイアスに,ロバスト推論のためのパラメータ化されたマハラノビス距離測定値の学習を提案して対処する。
論文参考訳（メタデータ） (2023-09-04T06:41:29Z)
Learning Linear Causal Representations from Interventions under General Nonlinear Mixing [52.66151568785088]
介入対象にアクセスできることなく、未知の単一ノード介入を考慮し、強い識別可能性を示す。これは、ディープニューラルネットワークの埋め込みに対する非ペアの介入による因果識別性の最初の例である。
論文参考訳（メタデータ） (2023-06-04T02:32:12Z)
Hubs and Hyperspheres: Reducing Hubness and Improving Transductive Few-shot Learning with Hyperspherical Embeddings [14.192549988460126]
いくつかの点(ハーブ)は、他の点の複数の最も近い近傍リストで頻繁に発生する。ハブネスは、あるクラスからのハブが他のクラスからの最も近いポイントの隣人の中にしばしば現れるとき、距離ベースの分類に悪影響を及ぼす。我々は超球面上に表現を埋め込むための2つの新しいアプローチを提案し、均一性と局所類似性保存とのトレードオフを最適化することを証明した。
論文参考訳（メタデータ） (2023-03-16T14:32:22Z)
Causal Transportability for Visual Recognition [70.13627281087325]
画像とラベルの関連性は、設定間では転送できないため、標準分類器がフェールすることを示す。次に、すべての共起源を摂食する因果効果が、ドメイン間で不変であることを示す。これにより、画像分類における因果効果を推定するアルゴリズムを開発する動機付けとなる。
論文参考訳（メタデータ） (2022-04-26T15:02:11Z)
Generalizing similarity in noisy setups: the DIBS phenomenon [0.0]
この研究は、類似性学習におけるデータ密度、ノイズ、一般化能力の間の相互作用を明らかにする。コントラスト学習の基本的な形態であるシームズニューラルネットワーク(SNN)を考察し,SNN,Pair Label Noise(PLN),Single Label Noise(SLN)に影響を及ぼす2種類のノイズを探索する。
論文参考訳（メタデータ） (2022-01-30T12:53:51Z)
The Curse Revisited: a Newly Quantified Concept of Meaningful Distances for Learning from High-Dimensional Noisy Data [18.113579221265635]
特定の条件下では、この差別が貧弱であるのを観察しても、騒音に影響を受ける実証的な近隣関係は依然として真実である可能性が高い。この結果の徹底的な実証的検証や、隣人がランダムになったり、不規則になったりした相変化を示す実験は、高次元データの密度雑音による低次元表現を見つけるのに、一般的な次元減少法が不十分あるいは良好に機能する相変化と同一である。
論文参考訳（メタデータ） (2021-09-22T08:04:15Z)
Discriminator-Free Generative Adversarial Attack [87.71852388383242]
生成的ベースの敵攻撃は、この制限を取り除くことができる。 ASymmetric Saliency-based Auto-Encoder (SSAE) は摂動を生成する。 SSAEが生成した敵の例は、広く使われているモデルを崩壊させるだけでなく、優れた視覚的品質を実現する。
論文参考訳（メタデータ） (2021-07-20T01:55:21Z)
Deconfounding Scores: Feature Representations for Causal Effect Estimation with Weak Overlap [140.98628848491146]
推定対象の偏りを伴わずに高い重なりを生じさせる,デコンファウンディングスコアを導入する。分離スコアは観測データで識別可能なゼロ共分散条件を満たすことを示す。特に,この手法が標準正規化の魅力的な代替となることを示す。
論文参考訳（メタデータ） (2021-04-12T18:50:11Z)
Deconfounded Score Method: Scoring DAGs with Dense Unobserved Confounding [101.35070661471124]
本研究では,観測データ分布に特徴的フットプリントが残っており,突発的・因果的影響を解消できることを示す。汎用ソルバで実装し,高次元問題へのスケールアップが可能なスコアベース因果検出アルゴリズムを提案する。
論文参考訳（メタデータ） (2021-03-28T11:07:59Z)
Self-Concordant Analysis of Generalized Linear Bandits with Forgetting [2.282313031205821]
ポアソンウィンドウや指数重みを用いた自己調和型GLB(ロジスティック回帰を含む)に焦点を当てる。本稿では,GLB(Generalized Bandits)問題に対処するためのアプローチを提案する。
論文参考訳（メタデータ） (2020-11-02T08:36:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。