論文の概要: Disentangling Geometry, Performance, and Training in Language Models
- arxiv url: http://arxiv.org/abs/2602.20433v1
- Date: Tue, 24 Feb 2026 00:31:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.560926
- Title: Disentangling Geometry, Performance, and Training in Language Models
- Title(参考訳): 言語モデルにおける幾何, 性能, 訓練の遠ざかる
- Authors: Atharva Kulkarni, Jacob Mitchell Springer, Arjun Subramonian, Swabha Swayamdipta,
- Abstract要約: モデル性能と非埋め込み行列幾何の関係を系統的に検討する。
実験では108のOLMoスタイルの言語モデルを用いて,制御されたバリエーションで学習を行った。
最高のパフォーマンスモデルは、しばしば高い効果的なランクを示すが、この傾向はタスクやトレーニング設定全体にわたって普遍的ではない。
- 参考スコア(独自算出の注目度): 28.748060518731446
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Geometric properties of Transformer weights, particularly the unembedding matrix, have been widely useful in language model interpretability research. Yet, their utility for estimating downstream performance remains unclear. In this work, we systematically investigate the relationship between model performance and the unembedding matrix geometry, particularly its effective rank. Our experiments, involving a suite of 108 OLMo-style language models trained under controlled variation, reveal several key findings. While the best-performing models often exhibit a high effective rank, this trend is not universal across tasks and training setups. Contrary to prior work, we find that low effective rank does not cause late-stage performance degradation in small models, but instead co-occurs with it; we find adversarial cases where low-rank models do not exhibit saturation. Moreover, we show that effective rank is strongly influenced by pre-training hyperparameters, such as batch size and weight decay, which in-turn affect the model's performance. Lastly, extending our analysis to other geometric metrics and final-layer representation, we find that these metrics are largely aligned, but none can reliably predict downstream performance. Overall, our findings suggest that the model's geometry, as captured by existing metrics, primarily reflects training choices rather than performance.
- Abstract(参考訳): トランスフォーマー重みの幾何学的性質、特にアンエンベディング行列は言語モデル解釈可能性研究において広く有用である。
しかし、下流のパフォーマンスを見積もるための実用性は、まだ不明である。
本研究では,モデル性能と非埋め込み行列幾何の関係,特に有効ランクについて系統的に検討する。
制御変動下で訓練された108のOLMoスタイル言語モデルを含む実験により,いくつかの重要な知見が得られた。
最高のパフォーマンスモデルは、しばしば高い効果的なランクを示すが、この傾向はタスクやトレーニング設定全体にわたって普遍的ではない。
先行研究とは対照的に、低い有効ランクは小さなモデルにおいて後期的な性能劣化を引き起こすのではなく、それと共起する。
さらに,本モデルの性能に影響を及ぼすバッチサイズや重み劣化など,事前学習したハイパーパラメータの影響が,有効ランクに強く影響していることが示唆された。
最後に、分析結果を他の幾何学的メトリクスや最終層表現に拡張すると、これらのメトリクスは概ね一致しているが、下流のパフォーマンスを確実に予測することはできない。
総じて、既存のメトリクスが捉えたモデル形状は、主に性能よりもトレーニングの選択を反映していることを示唆している。
関連論文リスト
- Weight Decay Improves Language Model Plasticity [9.005013915262658]
本研究では, モデル可塑性の観点から, ベースモデルが下流タスクに適応する能力について検討する。
より大きい重量減衰値で訓練されたモデルは、よりプラスチックであり、下流タスクで微調整された場合、より大きな性能向上を示す。
論文 参考訳(メタデータ) (2026-02-11T18:49:26Z) - Tending Towards Stability: Convergence Challenges in Small Language Models [3.734405405403176]
その利点にもかかわらず、より小型のモデルはより大きなモデルに比べて性能が劣ることが多い。
これは、比例的に表現能力の低下によるものである。
階層のアクティベーションの収束とパラメータの有効ランクを結びつけることで、我々の分析は、小さなモデルの学習力学における非効率性に対処するために将来の研究を導くことができる。
論文 参考訳(メタデータ) (2024-10-15T09:57:19Z) - TRAWL: Tensor Reduced and Approximated Weights for Large Language Models [11.064868044313855]
TRAWL (Tensor Reduced and Approximated Weights for Large Language Models) は、複数の重み行列に対してテンソル分解を適用し、大域的な構造パターンを捉えることでLLMを効果的に分解する手法である。
我々の実験によると、TRAWLは、追加のデータやトレーニング、微調整を必要とせず、ベンチマークデータセットのベースラインモデルよりも最大16%モデル性能を向上させる。
論文 参考訳(メタデータ) (2024-06-25T04:01:32Z) - Observational Scaling Laws and the Predictability of Language Model Performance [51.2336010244645]
本稿では、モデルトレーニングを回避し、100のパブリックモデルからスケーリング法則を構築する観察的アプローチを提案する。
いくつかの創発現象が滑らかでシグモダルな挙動を辿り、小さなモデルから予測可能であることを示す。
言語モデル機能の改善が進むにつれて、Chain-of-ThoughtやSelf-Consistencyといったポストトレーニング介入の影響を予測する方法を示す。
論文 参考訳(メタデータ) (2024-05-17T17:49:44Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Benign Overfitting in Classification: Provably Counter Label Noise with
Larger Models [8.696962915720174]
我々は、ResNetモデルがCifar10に優越するが、ImageNetに優越しないことを示す。
私たちの研究は、将来の方向性として不適合な体制における暗黙のバイアスを理解することの重要性を強調します。
論文 参考訳(メタデータ) (2022-06-01T14:00:37Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual
Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。
潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。
我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文 参考訳(メタデータ) (2020-12-08T18:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。