論文の概要: Sequences of Logits Reveal the Low Rank Structure of Language Models
- arxiv url: http://arxiv.org/abs/2510.24966v1
- Date: Tue, 28 Oct 2025 20:55:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:44.789248
- Title: Sequences of Logits Reveal the Low Rank Structure of Language Models
- Title(参考訳): 言語モデルの低ランク構造を明らかにするロジット列
- Authors: Noah Golowich, Allen Liu, Abhishek Shetty,
- Abstract要約: 本稿では,言語モデルの低次元構造をモデルに依存しないレベルで研究する手法を提案する。
われわれはまず,多種多様な現代言語モデルが低ランク構造を示すことを実証的に実証した。
そして、この低ランク構造を生成に活用できることが示される。
- 参考スコア(独自算出の注目度): 22.148282143726835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A major problem in the study of large language models is to understand their inherent low-dimensional structure. We introduce an approach to study the low-dimensional structure of language models at a model-agnostic level: as sequential probabilistic models. We first empirically demonstrate that a wide range of modern language models exhibit low-rank structure: in particular, matrices built from the model's logits for varying sets of prompts and responses have low approximate rank. We then show that this low-rank structure can be leveraged for generation -- in particular, we can generate a response to a target prompt using a linear combination of the model's outputs on unrelated, or even nonsensical prompts. On the theoretical front, we observe that studying the approximate rank of language models in the sense discussed above yields a simple universal abstraction whose theoretical predictions parallel our experiments. We then analyze the representation power of the abstraction and give provable learning guarantees.
- Abstract(参考訳): 大規模言語モデルの研究における大きな問題は、その固有の低次元構造を理解することである。
本稿では,言語モデルの低次元構造をモデルに依存しないレベルで,逐次確率モデルとして研究するアプローチを提案する。
まず、様々なプロンプトと応答の集合のためにモデルのロジットから構築された行列は、近似ランクが低い。
次に、この低ランク構造を生成のために活用できることを示します -- 特に、関係のないプロンプトや非意味なプロンプトに対するモデルの出力の線形結合を使って、ターゲットプロンプトに対する応答を生成することができます。
理論的には、上記の意味での言語モデルの近似階数の研究は、理論的な予測が我々の実験と平行な単純な普遍的な抽象化をもたらすことを観察する。
次に、抽象化の表現力を解析し、証明可能な学習保証を与える。
関連論文リスト
- Unraveling Syntax: How Language Models Learn Context-Free Grammars [1.0465074236788003]
文脈自由文法から生成した合成言語に基づいて学習した小型モデルの学習力学について検討する。
より複雑な構造に進む前に、まず単純なサブ構造をマスターする子供とは異なり、トランスフォーマーは全てのサブ文法を並列に損失を減らす。
論文 参考訳(メタデータ) (2025-10-02T19:52:19Z) - A Markov Categorical Framework for Language Modeling [9.910562011343009]
自己回帰言語モデルは、優れたパフォーマンスを達成するが、内部メカニズム、訓練が表現をどのように形作り、複雑な振る舞いを可能にするかを説明する統一理論は、いまだ解明されていない。
本稿では,マルコフカテゴリーの言語を用いた情報処理段階の合成として,単一ステップ生成過程をモデル化する新しい分析フレームワークを提案する。
この研究は、モデルを通して情報がどのように流れ、訓練対象が内部形状をどう形成するかを理解するための強力な新しいレンズを提供する。
論文 参考訳(メタデータ) (2025-07-25T13:14:03Z) - Slaves to the Law of Large Numbers: An Asymptotic Equipartition Property for Perplexity in Generative Language Models [0.0]
言語モデルにより生成された大きなテキストの対数的パープレキシティは、トークン分布の平均エントロピーに収束しなければならないことを示す。
これは、言語モデルによって生成される全ての長い合成テキストが属しなければならない典型的な集合'を定義する。
論文 参考訳(メタデータ) (2024-05-22T16:23:40Z) - On the Origins of Linear Representations in Large Language Models [51.88404605700344]
我々は,次のトークン予測の概念力学を定式化するために,単純な潜在変数モデルを導入する。
実験により、潜在変数モデルと一致するデータから学習すると線形表現が現れることが示された。
また、LLaMA-2大言語モデルを用いて、理論のいくつかの予測を検証した。
論文 参考訳(メタデータ) (2024-03-06T17:17:36Z) - Physics of Language Models: Part 1, Learning Hierarchical Language Structures [51.68385617116854]
トランスフォーマーベースの言語モデルは効率的だが複雑であり、内部の動作や推論メカニズムを理解することは大きな課題である。
本稿では,長文を生成可能な階層規則を生成する合成CFGのファミリーを紹介する。
我々は、GPTのような生成モデルがCFG定義階層を正確に学習し、推論し、それに基づいて文を生成することを実証する。
論文 参考訳(メタデータ) (2023-05-23T04:28:16Z) - Model Criticism for Long-Form Text Generation [113.13900836015122]
我々は,テキストの高レベル構造を評価するために,潜在空間におけるモデル批判という統計ツールを適用した。
我々は,コヒーレンス,コア,トピックスという,ハイレベルな談話の3つの代表的な側面について実験を行った。
トランスフォーマーベースの言語モデルでは、トピック構造をキャプチャできるが、構造コヒーレンスやモデリングコアスを維持するのが難しくなる。
論文 参考訳(メタデータ) (2022-10-16T04:35:58Z) - Language Model Cascades [72.18809575261498]
テスト時に1つのモデルで繰り返し対話する、あるいは複数のモデルの合成は、さらに機能を拡張する。
制御フローと動的構造を持つ場合、確率的プログラミングのテクニックが必要となる。
この観点から、スクラッチパッド/思考連鎖、検証器、STaR、選択推論、ツール利用など、いくつかの既存のテクニックを定式化します。
論文 参考訳(メタデータ) (2022-07-21T07:35:18Z) - TAGPRIME: A Unified Framework for Relational Structure Extraction [71.88926365652034]
TAGPRIMEは、与えられた条件に関する情報を入力テキストに追加するシーケンスタグ付けモデルである。
事前学習された言語モデルにおける自己認識機構により、プライミングワードは、出力された文脈化された表現に、与えられた条件に関するより多くの情報を含む。
5つの異なる言語にまたがる10のデータセットをカバーする3つのタスクに関する大規模な実験と分析は、TAGPRIMEの汎用性と有効性を示している。
論文 参考訳(メタデータ) (2022-05-25T08:57:46Z) - Low-Rank Constraints for Fast Inference in Structured Models [110.38427965904266]
この研究は、大規模構造化モデルの計算とメモリの複雑さを低減するための単純なアプローチを示す。
言語モデリング,ポリフォニック・ミュージック・モデリング,教師なし文法帰納法,ビデオ・モデリングのためのニューラルパラメータ構造モデルを用いた実験により,我々の手法は大規模状態空間における標準モデルの精度と一致することを示した。
論文 参考訳(メタデータ) (2022-01-08T00:47:50Z) - Overestimation of Syntactic Representationin Neural Language Models [16.765097098482286]
構文構造を誘導するモデルの能力を決定する一般的な方法の1つは、テンプレートに従って生成された文字列上でモデルを訓練し、それらの文字列と表面的に類似した文字列を異なる構文で区別するモデルの能力をテストすることである。
本稿では,2つの非シンタクティックなベースライン言語モデルを用いた最近の論文の肯定的な結果を再現することで,このアプローチの根本的な問題を説明する。
論文 参考訳(メタデータ) (2020-04-10T15:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。