論文の概要: Revealing Language Model Trajectories via Kullback-Leibler Divergence
- arxiv url: http://arxiv.org/abs/2505.15353v1
- Date: Wed, 21 May 2025 10:27:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.507742
- Title: Revealing Language Model Trajectories via Kullback-Leibler Divergence
- Title(参考訳): Kullback-Leibler Divergenceによる言語モデル軌道の探索
- Authors: Ryo Kishino, Yusuke Takase, Momose Oyama, Hiroaki Yamagiwa, Hidetoshi Shimodaira,
- Abstract要約: KLの発散によって測定された言語モデルの軌跡は、事前学習中に渦巻き構造を示し、層間におけるスレッドのような進行が進行することを示す。
拡散指数の観点では、対数様空間のモデル軌道は重み空間のモデルよりもより制約される。
- 参考スコア(独自算出の注目度): 2.4233709516962785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A recently proposed method enables efficient estimation of the KL divergence between language models, including models with different architectures, by assigning coordinates based on log-likelihood vectors. To better understand the behavior of this metric, we systematically evaluate KL divergence across a wide range of conditions using publicly available language models. Our analysis covers comparisons between pretraining checkpoints, fine-tuned and base models, and layers via the logit lens. We find that trajectories of language models, as measured by KL divergence, exhibit a spiral structure during pretraining and thread-like progressions across layers. Furthermore, we show that, in terms of diffusion exponents, model trajectories in the log-likelihood space are more constrained than those in weight space.
- Abstract(参考訳): 最近提案された手法は,ログ型ベクトルに基づいて座標を割り当てることで,異なるアーキテクチャを持つモデルを含む言語モデル間のKL分散を効率的に推定することができる。
この指標の振舞いをよりよく理解するために,公用言語モデルを用いて,KLの分散度を多種多様な条件で体系的に評価する。
分析では、事前学習チェックポイント、微調整モデル、ベースモデル、およびロジットレンズによる層の比較を行った。
KLの発散によって測定された言語モデルの軌道は、事前学習中に渦巻き構造を示し、層間におけるスレッドのような進行が進行する。
さらに,拡散指数の観点からは,対数様空間のモデル軌道は重み空間のモデル軌道よりも制約が強いことを示す。
関連論文リスト
- Better Estimation of the KL Divergence Between Language Models [58.7977683502207]
Kullback-Leibler (KL) の言語モデル間のばらつきを推定することは、多くの応用がある。
また, 標準モンテカルロ推定器の偏差が, 標準モンテカルロ推定器の偏差以下であるようなラオ-ブラックウェル化推定器を導入する。
論文 参考訳(メタデータ) (2025-04-14T18:40:02Z) - Mapping 1,000+ Language Models via the Log-Likelihood Vector [2.5999037208435705]
我々は,事前定義されたテキスト集合上で計算された対数様ベクトルをモデル特徴として用いて,自動回帰言語モデルを大規模に比較する。
提案手法はスケーラビリティが高く,計算コストはモデル数とテキストサンプル数の両方で線形に増大する。
この手法を1000以上の言語モデルに適用し、大規模モデル解析の新しい視点を提供する「モデルマップ」を構築した。
論文 参考訳(メタデータ) (2025-02-22T10:23:36Z) - Scalable Language Models with Posterior Inference of Latent Thought Vectors [52.63299874322121]
Latent-Thought Language Models (LTM) には、潜在空間における明示的な事前モデルに従う明示的な潜在思考ベクトルが含まれている。
LTMは従来のLLMを超える拡張次元を持ち、構造化された設計空間を提供する。
LTMは従来の自己回帰モデルや離散拡散モデルよりも、検証の難易度やゼロショット言語モデリングにおいて著しく優れている。
論文 参考訳(メタデータ) (2025-02-03T17:50:34Z) - MGF: Mixed Gaussian Flow for Diverse Trajectory Prediction [72.70572835589158]
本稿では,軌道予測のための正規化フローモデルに対して,混合ガウス前駆体を構築することを提案する。
提案手法は,一般的な UCY/ETH および SDD データセットにおける軌道アライメントと多様性の評価において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-02-19T15:48:55Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Hierarchical Latent Structure for Multi-Modal Vehicle Trajectory
Forecasting [0.0]
VAEに基づく軌道予測モデルに階層的潜在構造を導入する。
本モデルでは,複数モーダルな軌道分布を明瞭に生成し,予測精度で最先端(SOTA)モデルより優れる。
論文 参考訳(メタデータ) (2022-07-11T04:52:28Z) - Extracting Latent Steering Vectors from Pretrained Language Models [14.77762401765532]
本研究では,言語モデルデコーダから直接潜在ベクトルを抽出できることを示す。
実験により、ステアリングベクトルが存在し、それが言語モデルの隠れ状態に追加されると、ほぼ完璧にターゲット文を生成することが示された。
テキスト類似度ベンチマークで評価すると, ステアリングベクトル間の距離が文類似度を反映していることが分かる。
論文 参考訳(メタデータ) (2022-05-10T19:04:37Z) - Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。
我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。
実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文 参考訳(メタデータ) (2020-09-27T02:13:38Z) - Isometric Gaussian Process Latent Variable Model for Dissimilarity Data [0.0]
本稿では、潜在変数がモデル化データの距離と位相の両方を尊重する確率モデルを提案する。
このモデルは、対距離の観測に基づく変分推論によって推定される。
論文 参考訳(メタデータ) (2020-06-21T08:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。