論文の概要: Features have life history. And we should care
- arxiv url: http://arxiv.org/abs/2605.18789v1
- Date: Thu, 07 May 2026 15:12:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 12:34:33.946905
- Title: Features have life history. And we should care
- Title(参考訳): 特徴には人生の歴史がある
- Authors: Philipp Stecher, Sandro Radovanović, Vlasta Sikimić, Reinhard Kahle,
- Abstract要約: 訓練中に特徴が出現し、持続し、死滅するが、その歴史の重要性はほとんど解明されていない。
我々は,Pythia-160M と -410M をキャリアの足場として同定した,持続的な表現バックボーンの証拠を見いだした。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Features in language models have life history: they emerge, persist, and die during training, yet the importance of that history remains largely unexplored. We find evidence of a persistent representational backbone, which we identify in Pythia-160M and -410M as the carrier scaffold: ${\sim}50$ sparse features with stable life histories, around which the model's representational structure organises. It has four properties. \emph{(i)}~\emph{It assembles early:} features emerge, die, and reorganise ${\sim}40\!\times$ faster in the first $1\%$ of training than afterwards, and the scaffold is already largely fixed by then. \emph{(ii)}~\emph{It is load-bearing:} joint cross-layer ablation identifies the carriers as far more load-bearing than any count-matched non-scaffold population, a gap invisible to per-firing single-feature methods. \emph{(iii)}~\emph{Function precedes direction:} which features will become carriers is already predictable from training-onset firing patterns alone, correctly distinguishing future carriers from non-carriers in $4$ of $5$ cases, before the geometry has settled. \emph{(iv)}~\emph{It seeds subsequent development:} by the end of training, scaffold carriers have recruited $64\%$ of all active features into the scaffold hierarchy. Life history is consistent with a two-phase account of training: selection appears to largely determine the scaffold in the first $1\%$; the remaining $99\%$ appears to calibrate geometry around a substrate already set.
- Abstract(参考訳): 言語モデルの特徴は人生の歴史を持ち、それらは訓練中に出現し、持続し、死滅するが、その歴史の重要性はほとんど解明されていない。
我々はPythia-160M と -410M の持続的表現バックボーンがキャリアの足場であることを示す証拠を見出した。
性質は4つある。
\emph{
(i)}~\emph{Itasses early:} 機能が出現し、終了し、再編成され、${\sim}40\!
最初の1\%のトレーニングでは、 \times$がその後よりも速くなり、足場はすでにその時点でほぼ固定されている。
\emph{
(ii)}~\emph{It is load-bearing:} joint cross-layer ablation is identified the carriers as far over-bearing than any count-matched non-scaffold population, a gap to per-firing single-feature method。
\emph{
(iii)}~\emph{Functionは方向に先行する:} キャリヤになる機能は、トレーニングオンセットの発射パターンだけで予測可能であり、将来のキャリヤとキャリア以外のキャリアを正確に区別する。
\emph{
(iv)}~\emph{It seed after development:} トレーニングの終わりまでに、足場キャリアは、すべてのアクティブな機能を足場階層に6,4\%の価格で採用した。
ライフヒストリーはトレーニングの2段階的な説明と一致している: 選択は最初の1\%$の足場を決定するようにみえる;残りの99\%$は、既に設定されている基板の周りで幾何学を調整しているように見える。
関連論文リスト
- What Do EEG Foundation Models Capture from Human Brain Signals? [64.48249643001402]
現代の脳波基礎モデルは、自己教師付き事前訓練を通じて生信号から直接学習する。
我々は3つのサブクエストに分解する: モデルが何を学習するか、モデルを何に使用するのか、そしてどのように説明できるのか。
3つの基礎モデル(CSBrain, CBraMod, LaBraM),5つの臨床タスク(MDD, Stress, ISRUC-Sleep, TUSL, Siena)と6ファミリー63機能レキシコンを含む。
論文 参考訳(メタデータ) (2026-05-12T01:57:53Z) - AEL: Agent Evolving Learning for Open-Ended Environments [43.56685432981852]
本稿では,この障害に対処する2段階のフレームワークであるemphAgent Evolving Learning (ael)を紹介する。
ael はシャープ比 2.13$pm$0.47 を達成し、5つの自己改善法を上回ります。
これは、エージェントの自己改善におけるボトルネックが、アーキテクチャの複雑さを追加するのではなく、経験の使い方を自覚していることを示している。
論文 参考訳(メタデータ) (2026-04-23T14:29:25Z) - What do Language Models Learn and When? The Implicit Curriculum Hypothesis [50.89698323917259]
Inlicit Curriculum hypothesis: Pretraining following a compositional and predictable curriculum across models。
410M-13Bパラメータから4つのモデルファミリの出現点を追跡する。
モデルが一定の精度のしきい値に達する際の出現順序は著しく一致していることがわかった。
論文 参考訳(メタデータ) (2026-04-09T17:50:12Z) - $G^2$-Reader: Dual Evolving Graphs for Multimodal Document QA [53.491241153213565]
G2$-Readerはマルチモーダルな質問応答のためのデュアルグラフシステムである。
Qwen3-VL-32B-Instructによる$G2$-Readerの平均精度は66.21%に達し、強力なベースラインとスタンドアローンのGPT-5(53.08%)を上回った。
5つのマルチモーダルドメインにわたるVisDoMBenchでは、Qwen3-VL-32B-Instructを使った$G2$-Readerが平均精度66.21%に達し、強力なベースラインとスタンドアロンのGPT-5(53.08%)を上回っている。
論文 参考訳(メタデータ) (2026-01-29T17:52:54Z) - Silhouette-based Gait Foundation Model [56.27974816297294]
統一された歩行基盤モデルを構築するには、スケーラビリティと一般化の2つの長年の障壁に対処する必要がある。
私たちは、歩行理解のための最初のスケーラブルでセルフ教師付き事前学習フレームワークであるFoundationGaitを紹介します。
論文 参考訳(メタデータ) (2025-11-30T01:53:41Z) - Provable Scaling Laws of Feature Emergence from Learning Dynamics of Grokking [44.614763110719274]
我々は、グルーキング現象、すなわち遅延一般化について研究する。
本稿では,2層非線形ネットワークのグルーキング動作の3つの重要な段階を捉える新しいフレームワークを提案する。
私たちの研究は、体重減少、学習率、グルーキングにおけるサンプルサイズといったハイパースの役割に光を当てています。
論文 参考訳(メタデータ) (2025-09-25T20:08:09Z) - Near-Optimal $\Phi$-Regret Learning in Extensive-Form Games [85.78272987312343]
我々は、効率よく非結合な学習力学を確立し、各プレイヤーのトリガー後悔は、プレイの繰り返しの後に$O(log T)$として成長する。
これにより、これまでよく知られていた$O(T1/4)$よりも指数関数的に改善される。
論文 参考訳(メタデータ) (2022-08-20T20:48:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。