論文の概要: Beyond Temperature: Hyperfitting as a Late-Stage Geometric Expansion
- arxiv url: http://arxiv.org/abs/2605.22579v1
- Date: Thu, 21 May 2026 14:52:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.310495
- Title: Beyond Temperature: Hyperfitting as a Late-Stage Geometric Expansion
- Title(参考訳): 温度を超える: 後期の幾何学的展開としてのハイパーフィット
- Authors: Meimingwei Li, Yuanhao Ding, Esteban Garces Arias, Christian Heumann,
- Abstract要約: 極細調整LDMをほぼゼロのトレーニング損失にすることで、オープンな生成品質が向上し、グリーディ復号における繰り返しが軽減されることを示す。
最終5層のみを更新し,パラメータの更新を最小限に抑えた堅牢な生成を実現する,目標とする微調整戦略であるLatlas-Stage LoRAを紹介した。
- 参考スコア(独自算出の注目度): 1.7770888723114693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work has identified a counterintuitive phenomenon termed "Hyperfitting", where fine-tuning Large Language Models (LLMs) to near-zero training loss on small datasets surprisingly enhances open-ended generation quality and mitigates repetition in greedy decoding. While effective, the underlying mechanism remains poorly understood, with the extremely low-entropy output distributions suggesting a potential equivalence to simple temperature scaling. In this work, we demonstrate that this phenomenon is fundamentally distinct from distribution sharpening; entropy-matched control experiments reveal that temperature scaling fails to replicate the diversity gains of hyperfitting. Furthermore, we falsify the hypothesis of static vocabulary reweighting, showing through ablation studies that hyperfitting relies on a dynamic, context-dependent rank reordering mechanism. Layer-wise analysis localizes this effect to a "Terminal Expansion" in the final transformer block, where a substantial geometric expansion of the feature space (Delta Dim approx +80.8) facilitates the promotion of deep-tail tokens. Additionally, we introduce Late-Stage LoRA, a targeted fine-tuning strategy that updates only the final 5 layers, yielding robust generation with minimal parameter updates
- Abstract(参考訳): 最近の研究は"Hyperfitting"と呼ばれる反直感的な現象を特定しており、細調整された大規模言語モデル(LLM)が小さなデータセットでほぼゼロに近いトレーニング損失を負うことにより、驚くほどオープンな生成品質が向上し、グレディ復号における繰り返しの軽減が図られている。
効果はあるものの、基礎となるメカニズムはよく理解されておらず、非常に低エントロピーの出力分布は単純な温度スケーリングと等価であることを示している。
本研究では,この現象が分布のシャープ化と根本的に異なることを実証し,エントロピー整合制御実験により温度スケーリングがハイパーフィットの多様性向上を再現できないことを示した。
さらに,静的語彙の再重み付けの仮説をfalsifyにし,ハイパーフィットは動的で文脈依存的なランク付け機構に依存していることを示す。
層ワイズ解析は、この効果を最終変圧器ブロックの「終端拡大」にローカライズし、特徴空間の相当な幾何学的拡張(Delta Dim approx + 80.8)はディープテールトークンの促進を促進する。
さらに、最終5層のみを更新し、最小限のパラメータ更新でロバストな生成を可能にする、ターゲットとする微調整戦略である late-Stage LoRAを導入しました。
関連論文リスト
- Geometric and Dynamic Scaling in Deep Transformers [13.697614668609205]
我々は、ディープトランスフォーマーの崩壊は基本的に幾何学的な問題であると主張する。
2つの原則によりこれらの障害に対処する統一的な幾何学的枠組みを提案する。
超深層ネットワークにおけるランク崩壊を回避するためには, 動的消去を許容しながら幾何的妥当性を強制することが重要であると予測した。
論文 参考訳(メタデータ) (2026-01-03T00:41:46Z) - PointNSP: Autoregressive 3D Point Cloud Generation with Next-Scale Level-of-Detail Prediction [87.33016661440202]
自動回帰ポイントクラウド生成は、長い間、拡散ベースの品質アプローチに遅れを取ってきた。
低解像度で大域的な形状を保った粗大な生成フレームワークであるPointNSPを提案する。
ShapeNetの実験によると、PointNSPは自己回帰パラダイムの中で初めて、最先端(SOTA)生成品質を確立している。
論文 参考訳(メタデータ) (2025-10-07T06:31:02Z) - Tracing the Representation Geometry of Language Models from Pretraining to Post-training [22.18942718274405]
本研究では,事前学習と後学習にまたがる学習表現の幾何学をスペクトル的に検討する。
自己回帰事前学習中に3つの幾何位相の一貫した非単調列が発見された。
SFTとDPOは、特定の命令データや優先データを統合するために「エントロピー探索」ダイナミクスを駆動します。
論文 参考訳(メタデータ) (2025-09-27T00:46:29Z) - Beyond Progress Measures: Theoretical Insights into the Mechanism of Grokking [50.465604300990904]
グロキング(Grokking)とは、オーバーフィッティングの拡張後のテスト精度の急激な改善を指す。
本研究では、素数演算のタスクにおいて、Transformerの基盤となるグルーキング機構について検討する。
論文 参考訳(メタデータ) (2025-04-04T04:42:38Z) - Rao-Blackwell Gradient Estimators for Equivariant Denoising Diffusion [55.95767828747407]
分子やタンパク質の生成のようなドメインでは、物理系はモデルにとって重要な固有の対称性を示す。
学習のばらつきを低減し、確率的に低い分散勾配推定器を提供するフレームワークを提案する。
また,軌道拡散法(Orbit Diffusion)と呼ばれる手法を用いて,損失とサンプリングの手順を取り入れた推定器の実用的実装を提案する。
論文 参考訳(メタデータ) (2025-02-14T03:26:57Z) - Shrink the longest: improving latent space isotropy with symplicial geometry [0.0]
本稿では, 簡易幾何学に基づく新しい正規化手法を提案し, 潜在表現の等方性を改善する。
本手法は, 微調整時の異方性を大幅に低下させながら, 下流性能の向上につながることを示す。
論文 参考訳(メタデータ) (2025-01-09T18:44:10Z) - Understanding Augmentation-based Self-Supervised Representation Learning
via RKHS Approximation and Regression [53.15502562048627]
最近の研究は、自己教師付き学習とグラフラプラシアン作用素のトップ固有空間の近似との関係を構築している。
この研究は、増強に基づく事前訓練の統計的分析に発展する。
論文 参考訳(メタデータ) (2023-06-01T15:18:55Z) - Towards the Semantic Weak Generalization Problem in Generative Zero-Shot
Learning: Ante-hoc and Post-hoc [89.68803484284408]
生成ゼロショット学習(ZSL)の性能上限を制限した未探索要素を簡易かつ効果的に削減する戦略を提案する。
まず、意味的一般化を正式に定義し、その後、意味的弱一般化問題を減らそうとするアプローチを検討する。
アンテホック相では、ジェネレータのセマンティック入力を増強し、ジェネレータの適合ターゲットを緩和する。
論文 参考訳(メタデータ) (2022-04-24T13:54:42Z) - Eccentric Regularization: Minimizing Hyperspherical Energy without
explicit projection [0.913755431537592]
アイテム間の一対の反発力をシミュレートする新しい正規化損失関数を紹介します。
この損失関数を分離して最小化すると超球面分布が得られることを示す。
本稿では,この偏心正規化手法をオートエンコーダに適用し,画像生成,表現学習,下流分類タスクにおいてその効果を示す。
論文 参考訳(メタデータ) (2021-04-23T13:55:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。