論文の概要: LLM Circuit Analyses Are Consistent Across Training and Scale
- arxiv url: http://arxiv.org/abs/2407.10827v1
- Date: Mon, 15 Jul 2024 15:38:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 14:30:11.775003
- Title: LLM Circuit Analyses Are Consistent Across Training and Scale
- Title(参考訳): LLM回路解析はトレーニングとスケールに一貫性がある
- Authors: Curt Tigges, Michael Hanna, Qinan Yu, Stella Biderman,
- Abstract要約: 我々は,デコーダのみの言語モデルにおいて,300億の訓練トークンにまたがるモデル機構の出現と進化について検討する。
タスク能力とそれらをサポートする機能コンポーネントは、スケールにわたって同じトークン数で一貫して現れます。
これらの結果から, 事前学習終了時の小モデルに対する回路解析は, 追加の事前学習やモデルスケールの超越後においても適用可能な知見を与えることが可能であることが示唆された。
- 参考スコア(独自算出の注目度): 10.518477254902244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most currently deployed large language models (LLMs) undergo continuous training or additional finetuning. By contrast, most research into LLMs' internal mechanisms focuses on models at one snapshot in time (the end of pre-training), raising the question of whether their results generalize to real-world settings. Existing studies of mechanisms over time focus on encoder-only or toy models, which differ significantly from most deployed models. In this study, we track how model mechanisms, operationalized as circuits, emerge and evolve across 300 billion tokens of training in decoder-only LLMs, in models ranging from 70 million to 2.8 billion parameters. We find that task abilities and the functional components that support them emerge consistently at similar token counts across scale. Moreover, although such components may be implemented by different attention heads over time, the overarching algorithm that they implement remains. Surprisingly, both these algorithms and the types of components involved therein can replicate across model scale. These results suggest that circuit analyses conducted on small models at the end of pre-training can provide insights that still apply after additional pre-training and over model scale.
- Abstract(参考訳): 現在、ほとんどの大規模言語モデル(LLM)が継続的トレーニングや追加の微調整を受けている。
対照的に、LLMの内部メカニズムに関するほとんどの研究は、1つのスナップショットにおけるモデル(事前トレーニングの終了)に焦点を当てており、その結果が現実世界の設定に一般化されるかどうかという疑問が提起されている。
従来のメカニズムの研究では、エンコーダのみまたはおもちゃのモデルに焦点が当てられており、これはほとんどのデプロイされたモデルと大きく異なる。
本研究では、7000万から280億のパラメータのモデルにおいて、デコーダのみのLLMにおける300億のトレーニングトークンに対して、回路として機能するモデルメカニズムがどのように出現し、進化するかを追跡する。
タスク能力とそれらをサポートする機能コンポーネントは、スケールにわたって同じトークン数で一貫して現れます。
さらに、こうしたコンポーネントは時間とともに異なる注意力によって実装される可能性があるが、それらが実装する包括的なアルゴリズムは残されている。
驚くべきことに、これらのアルゴリズムとそれに関連するコンポーネントのタイプは、モデルスケールで複製できる。
これらの結果から, 事前学習終了時の小モデルに対する回路解析は, 追加の事前学習とモデルスケールの増大にともなっても適用可能な知見を与えることが可能であることが示唆された。
関連論文リスト
- LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。
本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。
異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文 参考訳(メタデータ) (2024-07-28T06:10:47Z) - The Fine Line: Navigating Large Language Model Pretraining with Down-streaming Capability Analysis [27.310894780313618]
本稿では,様々な事前学習中間点におけるモデル能力の総合的な比較を行う。
特定のダウンストリームメトリクスが、異なるサイズのモデルにまたがる同様のトレーニングダイナミクスを示すことを確認します。
コアの発見に加えて、AmberとOpenLLaMAを再現し、中間チェックポイントをリリースしました。
論文 参考訳(メタデータ) (2024-04-01T16:00:01Z) - Mixtures of Experts Unlock Parameter Scaling for Deep RL [54.26191237981469]
本稿では,Mixture-of-Expert(MoE)モジュールを値ベースネットワークに組み込むことで,パラメータスケーラブルなモデルが得られることを示す。
この研究は、強化学習のためのスケーリング法則の開発に関する強力な実証的証拠を提供する。
論文 参考訳(メタデータ) (2024-02-13T17:18:56Z) - Timer: Generative Pre-trained Transformers Are Large Time Series Models [83.03091523806668]
本稿では,大規模時系列モデル(LTSM)の早期開発を目的とした。
事前トレーニング中に、最大10億のタイムポイントを持つ大規模なデータセットをキュレートします。
多様なアプリケーションのニーズを満たすため,予測,計算,時系列の異常検出を統一的な生成タスクに変換する。
論文 参考訳(メタデータ) (2024-02-04T06:55:55Z) - The Truth is in There: Improving Reasoning in Language Models with
Layer-Selective Rank Reduction [22.659005954676598]
重み行列の高次成分を選択的に除去することにより,大規模言語モデルの性能を大幅に向上させることができることを示す。
LAER(Layer-Selective Rank reduction)と呼ばれるこの単純な介入は、トレーニングが完了した後、モデル上で行うことができる。
言語モデルとデータセットにまたがって、この発見の汎用性を実証する広範な実験を示す。
論文 参考訳(メタデータ) (2023-12-21T03:51:08Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - One Fits All:Power General Time Series Analysis by Pretrained LM [23.292260325891032]
自然言語や画像の事前学習モデルでは,すべてのメイン時系列解析タスクにおいて,同等あるいは最先端のパフォーマンスが得られることを示す。
この結果から,自然言語や画像を用いた事前学習モデルでは,すべての時系列解析タスクにおいて,同等あるいは最先端のパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2023-02-23T11:37:39Z) - Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey [66.18478838828231]
マルチモーダルな事前訓練型大型モデルは近年ますます注目を集めている。
本稿では, 自然言語処理, コンピュータビジョン, 音声処理における従来の深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・
次に,マルチモーダル・プレトレーニング・モデル(MM-PTM)のタスク定義,課題,メリットを紹介し,データ,目的,ネットワーク,知識強化による事前トレーニングに着目して,MM-PTMについて議論する。
論文 参考訳(メタデータ) (2023-02-20T15:34:03Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Can deep neural networks learn process model structure? An assessment
framework and analysis [0.2580765958706854]
本稿では,新しい適合度,精度,一般化の指標を補完する評価手法を提案する。
このフレームワークを単純な制御-フローの振る舞いを持つ複数のプロセスモデルに適用する。
以上の結果から, 単純化モデルにおいても, オーバーフィッティング対策の注意深い調整が必要であることが示唆された。
論文 参考訳(メタデータ) (2022-02-24T09:44:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。