論文の概要: Geometric Properties of the Voronoi Tessellation in Latent Semantic Manifolds of Large Language Models
- arxiv url: http://arxiv.org/abs/2604.06767v1
- Date: Wed, 08 Apr 2026 07:36:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.401249
- Title: Geometric Properties of the Voronoi Tessellation in Latent Semantic Manifolds of Large Language Models
- Title(参考訳): 大規模言語モデルの潜在意味多様体におけるボロノイテッセルレーションの幾何学的特性
- Authors: Marshall Brett,
- Abstract要約: Qwen3.5-4B-Base上での表現多様体上のボロノイテッセルレーション
ヴォロノワ・テッセルレーションはマージンリファインメント法により緩和可能であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models operate on discrete tokens but compute in continuous vector spaces, inducing a Voronoi tessellation over the representation manifold. We study this tessellation empirically on Qwen3.5-4B-Base, making two contributions. First, using float32 margin recomputation to resolve bfloat16 quantization artifacts, we validate Mabrok's (2026) linear scaling law of the expressibility gap with $R^2$ = 0.9997 - the strongest confirmation to date - and identify a mid-layer geometric ambiguity regime where margin geometry is anti-correlated with cross-entropy (layers 24-28, $ρ$ = -0.29) before crystallizing into alignment at the final layer ($ρ$ = 0.836). Second, we show that the Voronoi tessellation of a converged model is reshapable through margin refinement procedures (MRP): short post-hoc optimization runs that widen token-decision margins without retraining. We compare direct margin maximization against Fisher information distance maximization across a dose-response sweep. Both methods find the same ceiling of ~16,300 correctable positions per 256K evaluated, but differ critically in collateral damage. Margin maximization damage escalates with intervention strength until corrections are overwhelmed. Fisher damage remains constant at ~5,300 positions across the validated range ($λ$ = 0.15-0.6), achieving +28% median margin improvement at $λ$ = 0.6 with invariant downstream benchmarks - a geometric reorganization that compresses the expressibility gap while preserving its scaling law. However, frequency and token-class audits reveal that gains concentrate in high-frequency structural tokens (84% of net corrections at $λ$ = 0.6), with content and entity-like contributions shrinking at higher $λ$. Fisher MRP is therefore a viable geometric polishing tool whose practical ceiling is set not by aggregate damage but by the uniformity of token-level benefit.
- Abstract(参考訳): 言語モデルは離散トークンで作用するが、連続ベクトル空間で計算し、表現多様体上のボロノイテッセルレーションを誘導する。
本研究では, このテッセル化をQwen3.5-4Bベース上で実証的に研究し, 2つの貢献を行った。
まず、float16量子化アーティファクトを解くためにfloat32のマージン再計算を用い、Mabrokの(2026)線形スケーリング法則をR^2$ = 0.9997で検証し、マージン幾何学がクロスエントロピー(24-28, $ρ$ = -0.29)と反相関している中間層幾何学的曖昧性規則(ρ$ = 0.836)を最終層に配向させる前に同定する(ρ$ = 0.836)。
第二に,収束モデルのボロノイ・テッセルレーションはマージン改善法(MRP)により緩和可能であることを示す。
我々は,線量応答スイープにおけるフィッシャー情報距離の最大化に対する直接マージン最大化の比較を行った。
どちらの手法も、256Kあたりの修正可能な位置は16,300ほどと評価されているが、横方向の損傷では重大な違いがある。
マージン最大化損傷は、修正が圧倒されるまで介入強度でエスカレートする。
魚の損傷は検証範囲の約5,300位(λ$ = 0.15-0.6)で一定であり、そのスケーリング法則を保ちながら表現率ギャップを圧縮する幾何学的再編成(英語版)により、λ$ = 0.6で28%の中央利得改善を達成した。
しかし、周波数とトークンクラスの監査では、高頻度の構造トークン(λ$ = 0.6のネット補正の84%)にゲインが集中していることが判明し、コンテンツやエンティティのようなコントリビューションはより高い$λ$で減少する。
そのため、フィッシャーMRPは、集合的な損傷ではなく、トークンレベルの利益の均一性によって実用的な天井が設定される、実行可能な幾何学的研磨ツールである。
関連論文リスト
- Efficient Logistic Regression with Mixture of Sigmoids [15.14559143371469]
この結果から,EW に対する$O(dlog(Bn))$,$O(B3 n5)$が最短計算量で達成できることが示唆された。
この結果から,オンライン分類において,EWは計算処理が可能であり,幾何学的に適応可能であることがわかった。
論文 参考訳(メタデータ) (2026-04-03T09:36:34Z) - Optimal Unconstrained Self-Distillation in Ridge Regression: Strict Improvements, Precise Asymptotics, and One-Shot Tuning [61.07540493350384]
自己蒸留(英: Self-distillation, SD)とは、教師自身の予測と地道の混合で学生を訓練する過程である。
任意の予測リスクに対して、各正規化レベルにおいて、最適に混合された学生がリッジ教師に改善されることが示される。
本稿では,グリッド探索やサンプル分割,再構成なしに$star$を推定する一貫したワンショットチューニング手法を提案する。
論文 参考訳(メタデータ) (2026-02-19T17:21:15Z) - Stabilizing Fixed-Point Iteration for Markov Chain Poisson Equations [49.702772230127465]
有限状態マルコフ鎖を$n$状態と遷移行列$P$で研究する。
すべての非退化モードが実周辺不変部分空間 $mathcalK(P)$ によってキャプチャされ、商空間 $mathbbRn/mathcalK(P) 上の誘導作用素が厳密に収縮し、ユニークな商解が得られることを示す。
論文 参考訳(メタデータ) (2026-01-31T02:57:01Z) - Robust inverse material design with physical guarantees using the Voigt-Reuss Net [0.0]
本稿では, ハード物理保証を伴う前方および逆機械的均質化のためのスペクトル正規化サロゲートを提案する。
バイファシック・マイクロ構造のオープンデータセット上の3次元線形弾性では、完全に接続されたVoigt-Reussネットは、236のイソトロピーインディスクリプタを持つFFTベースのラベルでトレーニングされている。
全体として、Voigt-Reussネットは、大バッチで制約に一貫性のある逆設計で正確で物理的に許容できる前方予測を統一する。
論文 参考訳(メタデータ) (2025-11-14T15:17:37Z) - Identity-Link IRT for Label-Free LLM Evaluation: Preserving Additivity in TVD-MI Scores [3.959606869996232]
本報告では,TVD-MIの2次試行平均値が,非線形リンク関数を使わずに項目応答理論(IRT)に適合する付加的構造で中心確率スコアを得ることを示す。
Giniエントロピーからこのクリップ付き線形評価を導出し、境界飽和を扱うボックス制約最小二乗の定式化を導出する。
論文 参考訳(メタデータ) (2025-10-16T17:59:25Z) - Outcome-based Reinforcement Learning to Predict the Future [1.4313866885019229]
コンパクトな(14B)推論モデルは、o1のようなフロンティアモデルの予測精度に適合または超えるように訓練可能であることを示す。
ポリマーケットのトレーディングシミュレーションでは、その賭けが10%以上の投資のリターンをもたらすと見積もっている。
論文 参考訳(メタデータ) (2025-05-23T14:56:07Z) - Computational-Statistical Tradeoffs at the Next-Token Prediction Barrier: Autoregressive and Imitation Learning under Misspecification [50.717692060500696]
対数損失を伴う次のトーケン予測は自己回帰シーケンスモデリングの基盤となる。
次トーケン予測は、適度な誤差増幅を表す$C=tilde O(H)$を達成するために堅牢にすることができる。
C=e(log H)1-Omega(1)$。
論文 参考訳(メタデータ) (2025-02-18T02:52:00Z) - Refined Sample Complexity for Markov Games with Independent Linear Function Approximation [49.5660193419984]
マルコフゲーム(MG)はマルチエージェント強化学習(MARL)の重要なモデルである
本稿では、WangらによるAVLPRフレームワークを改良し(2023年)、最適部分ギャップの悲観的推定を設計する。
マルチエージェントの呪いに取り組み、最適な$O(T-1/2)収束率を達成し、同時に$textpoly(A_max)$依存性を避ける最初のアルゴリズムを与える。
論文 参考訳(メタデータ) (2024-02-11T01:51:15Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。