論文の概要: Time is Encoded in the Weights of Finetuned Language Models
- arxiv url: http://arxiv.org/abs/2312.13401v1
- Date: Wed, 20 Dec 2023 20:04:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 16:51:43.088768
- Title: Time is Encoded in the Weights of Finetuned Language Models
- Title(参考訳): 微調整言語モデルの重みに時間がエンコードされる
- Authors: Kai Nylund, Suchin Gururangan, Noah A. Smith
- Abstract要約: 言語モデルを新しい時間周期にカスタマイズするためのシンプルなツールである時間ベクトルを提示する。
時間ベクトルは、言語モデルを1回からデータに微調整することで生成される。
このベクトルは、我々の実験が示すように、その期間からテキストの性能を向上させる重み空間の方向を特定する。
- 参考スコア(独自算出の注目度): 65.71926562424795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present time vectors, a simple tool to customize language models to new
time periods. Time vectors are created by finetuning a language model on data
from a single time (e.g., a year or month), and then subtracting the weights of
the original pretrained model. This vector specifies a direction in weight
space that, as our experiments show, improves performance on text from that
time period. Time vectors specialized to adjacent time periods appear to be
positioned closer together in a manifold. Using this structure, we interpolate
between time vectors to induce new models that perform better on intervening
and future time periods, without any additional training. We demonstrate the
consistency of our findings across different tasks, domains, model sizes, and
time scales. Our results suggest that time is encoded in the weight space of
finetuned models.
- Abstract(参考訳): 新しい期間に言語モデルをカスタマイズするためのシンプルなツールであるtime vectorsを提案する。
時間ベクトルは、単一の時間(例えば、1年または月)からデータに基づいて言語モデルを微調整し、元の事前学習されたモデルの重みを減じて作成される。
このベクトルは、我々の実験が示すように、その期間からテキストの性能を向上させる重量空間の方向を特定する。
隣接した時間周期に特化した時間ベクトルは、多様体内でより近い位置にあるように見える。
この構造を用いて、時間ベクトル間の補間を行い、追加のトレーニングをすることなく、インターベンションと将来の時間により良いパフォーマンスを示す新しいモデルを誘導する。
我々は、異なるタスク、ドメイン、モデルサイズ、時間スケールにわたる発見の一貫性を実証する。
以上の結果から,時間は微調整モデルの重み空間に符号化されることが示唆された。
関連論文リスト
- Time Machine GPT [15.661920010658626]
大規模言語モデル(LLM)は、広範かつ時間的に区別されないテキストコーパスでしばしば訓練される。
このアプローチは言語の性質の進化と一致していない。
本稿では,Time Machine GPT (TiMaGPT) と呼ばれる一連のポイントインタイムLCMを提案する。
論文 参考訳(メタデータ) (2024-04-29T09:34:25Z) - Chronos: Learning the Language of Time Series [79.38691251254173]
Chronosは事前訓練された確率的時系列モデルのためのフレームワークである。
クロノスモデルでは,様々な領域の時系列データを利用して,未知の予測タスクにおけるゼロショット精度を向上させることができることを示す。
論文 参考訳(メタデータ) (2024-03-12T16:53:54Z) - PDETime: Rethinking Long-Term Multivariate Time Series Forecasting from
the perspective of partial differential equations [49.80959046861793]
本稿では,ニューラルPDEソルバの原理に着想を得た新しいLMTFモデルであるPDETimeを提案する。
7つの異なる時間的実世界のLMTFデータセットを用いた実験により、PDETimeがデータ固有の性質に効果的に適応できることが判明した。
論文 参考訳(メタデータ) (2024-02-25T17:39:44Z) - A decoder-only foundation model for time-series forecasting [23.824504640087753]
我々のモデルは,大規模時系列コーパス上でパッチ付きデコーダスタイルのアテンションモデルを事前学習することに基づいている。
予測履歴の長さ、予測長、時間的粒度の異なる範囲でうまく機能する。
論文 参考訳(メタデータ) (2023-10-14T17:01:37Z) - Time-LLM: Time Series Forecasting by Reprogramming Large Language Models [110.20279343734548]
時系列予測は多くの実世界の力学系において重要な意味を持つ。
時系列予測のための大規模言語モデルを再利用するための再プログラミングフレームワークであるTime-LLMを提案する。
Time-LLMは、最先端の特殊な予測モデルよりも優れた、強力な時系列学習者である。
論文 参考訳(メタデータ) (2023-10-03T01:31:25Z) - Learning Gaussian Mixture Representations for Tensor Time Series
Forecasting [8.31607451942671]
我々は、時間、位置、およびソース変数に暗示される各不均一成分を個別にモデル化する新しいTS予測フレームワークを開発する。
2つの実世界のTSデータセットによる実験結果は、最先端のベースラインと比較して、我々のアプローチの優位性を検証する。
論文 参考訳(メタデータ) (2023-06-01T06:50:47Z) - Extracting Latent Steering Vectors from Pretrained Language Models [14.77762401765532]
本研究では,言語モデルデコーダから直接潜在ベクトルを抽出できることを示す。
実験により、ステアリングベクトルが存在し、それが言語モデルの隠れ状態に追加されると、ほぼ完璧にターゲット文を生成することが示された。
テキスト類似度ベンチマークで評価すると, ステアリングベクトル間の距離が文類似度を反映していることが分かる。
論文 参考訳(メタデータ) (2022-05-10T19:04:37Z) - Temporal Attention for Language Models [24.34396762188068]
本稿では,トランスアーキテクチャのキーコンポーネントである自己注意機構を拡張し,時間的注意を喚起する。
時間的注意は、任意のトランスモデルに適用することができ、入力テキストに関連する時間ポイントを添付する必要がある。
我々はこれらの表現を意味変化検出のタスクに活用する。
提案したモデルでは,すべてのデータセットに対して最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-02-04T11:55:34Z) - Conditional Neural Relational Inference for Interacting Systems [58.141087282927415]
我々は、類似しているが異なる相互作用するオブジェクトのグループのダイナミクスをモデル化することを学ぶ。
ベクトル記述から任意の群から条件生成が可能なモデルを開発する。
我々は,ヒト歩行のモデル化と,特に病理的ヒト歩行のモデル化におけるモデルの評価を行った。
論文 参考訳(メタデータ) (2021-06-21T13:05:48Z) - Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。
我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。
実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文 参考訳(メタデータ) (2020-09-27T02:13:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。