論文の概要: The Birth of Knowledge: Emergent Features across Time, Space, and Scale in Large Language Models
- arxiv url: http://arxiv.org/abs/2505.19440v1
- Date: Mon, 26 May 2025 02:59:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.128187
- Title: The Birth of Knowledge: Emergent Features across Time, Space, and Scale in Large Language Models
- Title(参考訳): 知識の誕生:大規模言語モデルにおける時間、空間、規模にわたる創発的特徴
- Authors: Shashata Sawmya, Micah Adler, Nir Shavit,
- Abstract要約: 本稿では,大言語モデル(LLM)における解釈可能な分類的特徴の出現について検討する。
機械的解釈にスパースオートエンコーダを用いることで、ニューラルアクティベーション内で特定の意味概念がいつどこで現れるかを特定する。
- 参考スコア(独自算出の注目度): 3.541570601342306
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper studies the emergence of interpretable categorical features within large language models (LLMs), analyzing their behavior across training checkpoints (time), transformer layers (space), and varying model sizes (scale). Using sparse autoencoders for mechanistic interpretability, we identify when and where specific semantic concepts emerge within neural activations. Results indicate clear temporal and scale-specific thresholds for feature emergence across multiple domains. Notably, spatial analysis reveals unexpected semantic reactivation, with early-layer features re-emerging at later layers, challenging standard assumptions about representational dynamics in transformer models.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)における解釈可能な分類的特徴の出現について検討し,学習チェックポイント(時間),トランスフォーマー層(空間),モデルサイズ(スケール)の変動を解析した。
機械的解釈にスパースオートエンコーダを用いることで、ニューラルアクティベーション内で特定の意味概念がいつどこで現れるかを特定する。
その結果,複数の領域にまたがる特徴の出現に対して,時間的およびスケール特異的な閾値が明確であった。
特に、空間分析は予期せぬ意味的再活性化を示し、初期層の特徴は後層で再燃し、トランスフォーマーモデルにおける表現力学に関する標準的な仮定に挑戦する。
関連論文リスト
- The Origins of Representation Manifolds in Large Language Models [52.68554895844062]
表現空間におけるコサイン類似性は、最短のオンマンフォールド経路を通して特徴の内在幾何学を符号化することができることを示す。
理論の臨界仮定と予測は、大きな言語モデルのテキスト埋め込みとトークンアクティベーションに基づいて検証される。
論文 参考訳(メタデータ) (2025-05-23T13:31:22Z) - Neural models for prediction of spatially patterned phase transitions: methods and challenges [0.37282630026096597]
早期警告信号(EWS)検出は、今後のクリティカルトランジションの動的シグネチャを識別する可能性を示唆している。
本稿では,空間的位相パターン遷移に対するニューラルEWS検出の成功と欠点について検討する。
論文 参考訳(メタデータ) (2025-05-14T18:24:15Z) - Enforcing Interpretability in Time Series Transformers: A Concept Bottleneck Framework [2.8470354623829577]
本研究では,時系列変換器の解釈可能性を実現するための概念ボトルネックモデルに基づくフレームワークを開発する。
我々は、事前定義された解釈可能な概念に似た表現を開発するようモデルに促すために、トレーニング対象を変更する。
モデルの性能はほとんど影響を受けていないが、モデルは解釈可能性を大幅に改善している。
論文 参考訳(メタデータ) (2024-10-08T14:22:40Z) - TempoFormer: A Transformer for Temporally-aware Representations in Change Detection [12.063146420389371]
本研究では,動的表現学習のためのタスク依存型トランスフォーマーと時間認識型モデルであるTempoFormerを紹介する。
本手法はコンテキスト間の動的および内部的力学を共同で訓練し,回転位置埋め込みの時間的変化を新たに導入する。
3つの異なるリアルタイム変化検出タスクに対して新しいSOTA性能を示す。
論文 参考訳(メタデータ) (2024-08-28T10:25:53Z) - Learning Semantic Textual Similarity via Topic-informed Discrete Latent
Variables [17.57873577962635]
我々は、意味的テキスト類似性のためのトピックインフォームド離散潜在変数モデルを開発した。
我々のモデルはベクトル量子化による文対表現のための共有潜在空間を学習する。
我々のモデルは意味的テキスト類似性タスクにおいて、いくつかの強力な神経ベースラインを超えることができることを示す。
論文 参考訳(メタデータ) (2022-11-07T15:09:58Z) - Variational Predictive Routing with Nested Subjective Timescales [1.6114012813668934]
本稿では,時間的階層に潜む映像の特徴を整理するニューラル推論システムである変動予測ルーティング(PRV)を提案する。
VPRはイベント境界を検出し、時間的特徴を分散させ、データの動的階層に適応し、未来の正確な時間に依存しないロールアウトを生成することができることを示す。
論文 参考訳(メタデータ) (2021-10-21T16:12:59Z) - Did the Cat Drink the Coffee? Challenging Transformers with Generalized
Event Knowledge [59.22170796793179]
Transformers Language Models (TLMs) を数学的適合のテクトダイナミックな評価のためのベンチマークで検証した。
以上の結果から, TLM は SDM に匹敵する性能が得られることが示された。
しかし、さらなる分析は、TLMがイベント知識の重要な側面を捉えていないことを一貫して示唆している。
論文 参考訳(メタデータ) (2021-07-22T20:52:26Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - A comprehensive comparative evaluation and analysis of Distributional
Semantic Models [61.41800660636555]
我々は、静的DSMによって生成されたり、BERTによって生成された文脈化されたベクトルを平均化して得られるような、型分布ベクトルの包括的評価を行う。
その結果、予測ベースモデルの優越性は現実よりも明らかであり、ユビキタスではないことが明らかとなった。
我々は認知神経科学からRepresentational similarity Analysis(RSA)の方法論を借りて、分布モデルによって生成された意味空間を検査する。
論文 参考訳(メタデータ) (2021-05-20T15:18:06Z) - Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。
我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。
実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文 参考訳(メタデータ) (2020-09-27T02:13:38Z) - Deducing neighborhoods of classes from a fitted model [68.8204255655161]
本稿では,新しいタイプの解釈可能な機械学習手法を提案する。
量子シフトを用いた分類モデルでは、特徴空間の予測クラスへの分割を理解するのに役立ちます。
基本的に、実際のデータポイント(または特定の関心点)を使用し、特定の特徴をわずかに引き上げたり減少させたりした後の予測の変化を観察する。
論文 参考訳(メタデータ) (2020-09-11T16:35:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。