論文の概要: Provably Learning from Modern Language Models via Low Logit Rank
- arxiv url: http://arxiv.org/abs/2512.09892v1
- Date: Wed, 10 Dec 2025 18:18:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.631136
- Title: Provably Learning from Modern Language Models via Low Logit Rank
- Title(参考訳): 低ログランクによる現代言語モデルからの学習の可能性
- Authors: Noah Golowich, Allen Liu, Abhishek Shetty,
- Abstract要約: ローロジットランクモデルは、ノイズパリティのようなハード・トゥ・ラーン分布を符号化することができる。
証明可能な学習保証を得るために,この構造をアルゴリズム的に活用する方法を示す。
我々の結果は、現代の言語モデルを確実にキャプチャする生成モデルに対する、エンド・ツー・エンドの学習保証であると考えているものを与えます。
- 参考スコア(独自算出の注目度): 22.148282143726835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While modern language models and their inner workings are incredibly complex, recent work (Golowich, Liu & Shetty; 2025) has proposed a simple and potentially tractable abstraction for them through the observation that empirically, these language models all seem to have approximately low logit rank. Roughly, this means that a matrix formed by the model's log probabilities of various tokens conditioned on certain sequences of tokens is well approximated by a low rank matrix. In this paper, our focus is on understanding how this structure can be exploited algorithmically for obtaining provable learning guarantees. Since low logit rank models can encode hard-to-learn distributions such as noisy parities, we study a query learning model with logit queries that reflects the access model for common APIs. Our main result is an efficient algorithm for learning any approximately low logit rank model from queries. We emphasize that our structural assumption closely reflects the behavior that is empirically observed in modern language models. Thus, our result gives what we believe is the first end-to-end learning guarantee for a generative model that plausibly captures modern language models.
- Abstract(参考訳): 現代の言語モデルとその内部の作業は非常に複雑であるが、最近の研究(Golowich, Liu & Shetty; 2025)は、これらの言語モデルは、実証的に、ほぼロージットランクのように見えるという観察を通して、それらに対して単純で、潜在的に引きずりやすい抽象化を提案している。
これは、あるトークン列に条件付けられた様々なトークンのモデルのログ確率によって生成される行列が、低階行列によってよく近似されることを意味する。
本稿では,この構造をアルゴリズム的に活用して,証明可能な学習保証を得る方法を理解することに焦点を当てる。
低ロジットランクモデルは、ノイズパリティなどの難解な分布を符号化できるため、共通APIのアクセスモデルを反映したロジットクエリを用いたクエリ学習モデルについて検討する。
我々の主な成果は、クエリからおよそローロジットランクモデルを学習するための効率的なアルゴリズムである。
我々は,現代言語モデルで経験的に観察される行動に,構造的仮定が密接に反映していることを強調した。
このようにして、我々の結果は、現代の言語モデルを確実にキャプチャする生成モデルに対する、最初のエンドツーエンドの学習保証であると信じているものを与えます。
関連論文リスト
- Sequences of Logits Reveal the Low Rank Structure of Language Models [22.148282143726835]
本稿では,言語モデルの低次元構造をモデルに依存しないレベルで研究する手法を提案する。
われわれはまず,多種多様な現代言語モデルが低ランク構造を示すことを実証的に実証した。
そして、この低ランク構造を生成に活用できることが示される。
論文 参考訳(メタデータ) (2025-10-28T20:55:58Z) - Pretraining Language Models to Ponder in Continuous Space [50.52734567589996]
単一のトークン生成ステップ内で,前処理を繰り返し呼び出すことによって,この思考プロセスを言語モデルに導入する。
人間のアノテーションを使わずに、自己教師付き学習を通じて、この方法でモデルを学習できることが示される。
論文 参考訳(メタデータ) (2025-05-27T03:47:33Z) - Model Stealing for Any Low-Rank Language Model [25.16701867917684]
我々は、単純で数学的に計算可能な設定を研究することによって、言語モデルを盗むという理論的理解を構築する。
我々の主な成果は、低ランク分布を学習するための条件付きクエリモデルにおける効率的なアルゴリズムである。
これは、少なくとも理論的には、推論時に機械学習モデルがより複雑な問題を解くことができるという興味深い例である。
論文 参考訳(メタデータ) (2024-11-12T04:25:31Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。
これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。
結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文 参考訳(メタデータ) (2023-06-25T02:39:19Z) - Interpretability at Scale: Identifying Causal Mechanisms in Alpaca [62.65877150123775]
本研究では、Boundless DASを用いて、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索する。
私たちの発見は、成長し、最も広くデプロイされている言語モデルの内部構造を忠実に理解するための第一歩です。
論文 参考訳(メタデータ) (2023-05-15T17:15:40Z) - A Natural Bias for Language Generation Models [31.44752136404971]
我々は、一グラムの周波数統計を先行知識として反映した別個のモジュールで、標準のニューラルネットワーク生成モデルを実現することができることを示す。
この単純なテクニックのテストベッドとしてニューラルマシン翻訳を使用し、(i)学習効率の向上、(ii)全体的なパフォーマンスの向上、そしておそらく最も重要なことは、強い周波数効果を歪めているように見えることです。
論文 参考訳(メタデータ) (2022-12-19T18:14:36Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Low-Rank Softmax Can Have Unargmaxable Classes in Theory but Rarely in
Practice [18.296971636710985]
我々は,インフンガルグ可能なトークンの公開言語モデルを検出するアルゴリズムを開発した。
150モデル中13モデルが実際にそのようなトークンを持っていることが分かりました。
論文 参考訳(メタデータ) (2022-03-12T15:34:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。