論文の概要: Disentangling Geometry, Performance, and Training in Language Models
- arxiv url: http://arxiv.org/abs/2602.20433v1
- Date: Tue, 24 Feb 2026 00:31:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.560926
- Title: Disentangling Geometry, Performance, and Training in Language Models
- Title(参考訳): 言語モデルにおける幾何, 性能, 訓練の遠ざかる
- Authors: Atharva Kulkarni, Jacob Mitchell Springer, Arjun Subramonian, Swabha Swayamdipta,
- Abstract要約: モデル性能と非埋め込み行列幾何の関係を系統的に検討する。
実験では108のOLMoスタイルの言語モデルを用いて,制御されたバリエーションで学習を行った。
最高のパフォーマンスモデルは、しばしば高い効果的なランクを示すが、この傾向はタスクやトレーニング設定全体にわたって普遍的ではない。
- 参考スコア(独自算出の注目度): 28.748060518731446
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Geometric properties of Transformer weights, particularly the unembedding matrix, have been widely useful in language model interpretability research. Yet, their utility for estimating downstream performance remains unclear. In this work, we systematically investigate the relationship between model performance and the unembedding matrix geometry, particularly its effective rank. Our experiments, involving a suite of 108 OLMo-style language models trained under controlled variation, reveal several key findings. While the best-performing models often exhibit a high effective rank, this trend is not universal across tasks and training setups. Contrary to prior work, we find that low effective rank does not cause late-stage performance degradation in small models, but instead co-occurs with it; we find adversarial cases where low-rank models do not exhibit saturation. Moreover, we show that effective rank is strongly influenced by pre-training hyperparameters, such as batch size and weight decay, which in-turn affect the model's performance. Lastly, extending our analysis to other geometric metrics and final-layer representation, we find that these metrics are largely aligned, but none can reliably predict downstream performance. Overall, our findings suggest that the model's geometry, as captured by existing metrics, primarily reflects training choices rather than performance.
- Abstract(参考訳): トランスフォーマー重みの幾何学的性質、特にアンエンベディング行列は言語モデル解釈可能性研究において広く有用である。
しかし、下流のパフォーマンスを見積もるための実用性は、まだ不明である。
本研究では,モデル性能と非埋め込み行列幾何の関係,特に有効ランクについて系統的に検討する。
制御変動下で訓練された108のOLMoスタイル言語モデルを含む実験により,いくつかの重要な知見が得られた。
最高のパフォーマンスモデルは、しばしば高い効果的なランクを示すが、この傾向はタスクやトレーニング設定全体にわたって普遍的ではない。
先行研究とは対照的に、低い有効ランクは小さなモデルにおいて後期的な性能劣化を引き起こすのではなく、それと共起する。
さらに,本モデルの性能に影響を及ぼすバッチサイズや重み劣化など,事前学習したハイパーパラメータの影響が,有効ランクに強く影響していることが示唆された。
最後に、分析結果を他の幾何学的メトリクスや最終層表現に拡張すると、これらのメトリクスは概ね一致しているが、下流のパフォーマンスを確実に予測することはできない。
総じて、既存のメトリクスが捉えたモデル形状は、主に性能よりもトレーニングの選択を反映していることを示唆している。
関連論文リスト
- Weight Decay Improves Language Model Plasticity [9.005013915262658]
本研究では, モデル可塑性の観点から, ベースモデルが下流タスクに適応する能力について検討する。
より大きい重量減衰値で訓練されたモデルは、よりプラスチックであり、下流タスクで微調整された場合、より大きな性能向上を示す。
論文 参考訳(メタデータ) (2026-02-11T18:49:26Z) - Fisher Information, Training and Bias in Fourier Regression Models [0.05997422707234518]
本研究では,ある課題に対するモデルの効果次元とエンペビアの間の相互作用について検討する。
学習すべき関数に対して完全に非依存的、あるいはバイアスのないモデルでは、より効果的な次元がトレーニング性とパフォーマンスの向上をもたらす可能性が示されている。
論文 参考訳(メタデータ) (2025-10-08T12:29:11Z) - Tending Towards Stability: Convergence Challenges in Small Language Models [3.734405405403176]
その利点にもかかわらず、より小型のモデルはより大きなモデルに比べて性能が劣ることが多い。
これは、比例的に表現能力の低下によるものである。
階層のアクティベーションの収束とパラメータの有効ランクを結びつけることで、我々の分析は、小さなモデルの学習力学における非効率性に対処するために将来の研究を導くことができる。
論文 参考訳(メタデータ) (2024-10-15T09:57:19Z) - TRAWL: Tensor Reduced and Approximated Weights for Large Language Models [11.064868044313855]
TRAWL (Tensor Reduced and Approximated Weights for Large Language Models) は、複数の重み行列に対してテンソル分解を適用し、大域的な構造パターンを捉えることでLLMを効果的に分解する手法である。
我々の実験によると、TRAWLは、追加のデータやトレーニング、微調整を必要とせず、ベンチマークデータセットのベースラインモデルよりも最大16%モデル性能を向上させる。
論文 参考訳(メタデータ) (2024-06-25T04:01:32Z) - Observational Scaling Laws and the Predictability of Language Model Performance [51.2336010244645]
本稿では、モデルトレーニングを回避し、100のパブリックモデルからスケーリング法則を構築する観察的アプローチを提案する。
いくつかの創発現象が滑らかでシグモダルな挙動を辿り、小さなモデルから予測可能であることを示す。
言語モデル機能の改善が進むにつれて、Chain-of-ThoughtやSelf-Consistencyといったポストトレーニング介入の影響を予測する方法を示す。
論文 参考訳(メタデータ) (2024-05-17T17:49:44Z) - Theoretical Characterization of the Generalization Performance of
Overfitted Meta-Learning [70.52689048213398]
本稿では,ガウス的特徴を持つ線形回帰モデルの下で,過剰適合型メタラーニングの性能について検討する。
シングルタスク線形回帰には存在しない新しい興味深い性質が見つかる。
本分析は,各訓練課題における基礎的真理のノイズや多様性・変動が大きい場合には,良心過剰がより重要かつ容易に観察できることを示唆する。
論文 参考訳(メタデータ) (2023-04-09T20:36:13Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Investigating Ensemble Methods for Model Robustness Improvement of Text
Classifiers [66.36045164286854]
既存のバイアス機能を分析し、すべてのケースに最適なモデルが存在しないことを実証します。
適切なバイアスモデルを選択することで、より洗練されたモデル設計でベースラインよりもロバスト性が得られる。
論文 参考訳(メタデータ) (2022-10-28T17:52:10Z) - Benign Overfitting in Classification: Provably Counter Label Noise with
Larger Models [8.696962915720174]
我々は、ResNetモデルがCifar10に優越するが、ImageNetに優越しないことを示す。
私たちの研究は、将来の方向性として不適合な体制における暗黙のバイアスを理解することの重要性を強調します。
論文 参考訳(メタデータ) (2022-06-01T14:00:37Z) - No One Representation to Rule Them All: Overlapping Features of Training
Methods [12.58238785151714]
ハイパフォーマンスモデルは、トレーニング方法論に関係なく、同様の予測をする傾向があります。
近年の研究では、大規模なコントラスト学習など、非常に異なるトレーニングテクニックが、競争的に高い精度で実現されている。
これらのモデルはデータの一般化に特化しており、より高いアンサンブル性能をもたらす。
論文 参考訳(メタデータ) (2021-10-20T21:29:49Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual
Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。
潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。
我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文 参考訳(メタデータ) (2020-12-08T18:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。