論文の概要: Large Language Models Explore by Latent Distilling
- arxiv url: http://arxiv.org/abs/2604.24927v1
- Date: Mon, 27 Apr 2026 19:08:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.565696
- Title: Large Language Models Explore by Latent Distilling
- Title(参考訳): 潜水蒸留による大規模言語モデルの探索
- Authors: Yuanhao Zeng, Ao Lu, Lufei Li, Zheng Zhang, Yexin Li, Kan Ren,
- Abstract要約: ESampは、世代間の意味的多様性を明確に促進するデコードアプローチである。
ESampは数学、科学、コード生成ベンチマークで堅牢な一般化を実現している。
- 参考スコア(独自算出の注目度): 17.44180253276711
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Generating diverse responses is crucial for test-time scaling of large language models (LLMs), yet standard stochastic sampling mostly yields surface-level lexical variation, limiting semantic exploration. In this paper, we propose Exploratory Sampling (ESamp), a decoding approach that explicitly encourages semantic diversity during generation. ESamp is motivated by the well-known observation that neural networks tend to make lower-error predictions on inputs similar to those encountered before, and incur higher prediction error on novel ones. Building on this property, we train a lightweight Distiller at test time to predict deep-layer hidden representations of the LLM from its shallow-layer representations to model the LLM's depth-wise representation transitions. During decoding, the Distiller continuously adapts to the mappings induced by the current generation context. ESamp uses the prediction error as a novelty signal to reweight candidate token extensions conditioned on the current prefix, thereby biasing decoding toward less-explored semantic patterns. ESamp is implemented with an asynchronous training--inference pipeline, with less than 5% worst case overhead (1.2% in the optimized release). Empirical results show that ESamp significantly boosts the Pass@k efficiency of reasoning models, showing superior or comparable performance to strong stochastic and heuristic baselines. Notably, ESamp achieves robust generalization across mathematics, science, and code generation benchmarks and breaks the trade-off between diversity and coherence in creative writing. Our code has released at: https://github.com/LinesHogan/tLLM.
- Abstract(参考訳): 多様な応答を生成することは、大規模言語モデル(LLM)のテスト時間スケーリングにおいて重要であるが、標準的な確率的サンプリングは、主に表面レベルの語彙変化をもたらし、意味探索を制限する。
本稿では,生成中の意味的多様性を明確に促進するデコード手法であるExploratory Smpling (ESamp)を提案する。
ESampは、ニューラルネットワークが以前に遭遇したものと類似した入力に対して低いエラー予測を行う傾向があり、新しいものに対して高い予測エラーを引き起こすというよく知られた観察に動機付けられている。
この特性に基づいて、我々は試験時に軽量ディファイラをトレーニングし、LLMの深層表現からLLMの深層表現を予測し、LLMの深層表現遷移をモデル化する。
デコード中、Distillerは、現在の生成コンテキストによって誘導されるマッピングに継続的に適応する。
ESampは予測エラーをノベルティ信号として使用し、現在のプレフィックスで条件付けられた候補トークン拡張を再重み付けすることで、より探索の少ないセマンティックパターンへのデコーディングをバイアスする。
ESampは非同期トレーニング-推論パイプラインで実装されており、5%未満のケースオーバーヘッド(最適化されたリリースでは1.2%)を持つ。
実験の結果,ESampは推論モデルのPass@k効率を大幅に向上させ,確率的,ヒューリスティックなベースラインよりも優れた,あるいは同等のパフォーマンスを示した。
特に、ESampは数学、科学、コード生成ベンチマークをまたいだ堅牢な一般化を実現し、創造的執筆における多様性と一貫性の間のトレードオフを断ち切る。
私たちのコードは、https://github.com/LinesHogan/tLLM.comでリリースされています。
関連論文リスト
- Characterizing Memorization in Diffusion Language Models: Generalized Extraction and Sampling Effects [17.220195638215507]
拡散言語モデル (DLMs) は自己回帰言語モデル (ARMs) の代替として登場した。
DLMは、ARMと比較して、個人識別情報(PII)の記憶に基づくリークが著しく低い。
論文 参考訳(メタデータ) (2026-03-02T19:03:32Z) - Self-Rewarding Sequential Monte Carlo for Masked Diffusion Language Models [58.946955321428845]
本研究は自己回帰型モンテカルロ(SMC)を提示する。
提案アルゴリズムは,既存のMDLMのほとんどが信頼性に基づくサンプリング戦略に依存している点に起因している。
粒子重み付けのための自己回帰信号として軌道レベルの信頼性を導入する。
論文 参考訳(メタデータ) (2026-02-02T09:21:45Z) - Continuous Autoregressive Language Models [56.49239051750678]
我々はCALM(Continuous Autoregressive Language Models)を紹介する。
CALMは高忠実度オートエンコーダを使用して、Kトークンの塊を1つの連続ベクトルに圧縮する。
我々は、堅牢なトレーニング、評価、および制御可能なサンプリングを可能にする包括的可能性のないフレームワークを開発する。
論文 参考訳(メタデータ) (2025-10-31T17:58:11Z) - Large Language Diffusion Models [93.26422905620008]
大規模言語モデル(LLM)は自己回帰モデル(ARM)に依存していると考えられている。
我々は,事前学習および教師付き微調整パラダイムの下で,ゼロから学習した拡散モデルであるLLaDAを紹介する。
一般的なタスクや数学、コードなどに関する広範なベンチマークを通じて、LLaDAは強力なスケーラビリティを示し、自己構築されたARMベースラインと互換性のあるパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-02-14T08:23:51Z) - The Hyperfitting Phenomenon: Sharpening and Stabilizing LLMs for Open-Ended Text Generation [15.904856111636851]
本稿では,非常に小さなデータセット上で事前学習した大規模言語モデルに過度に適合する反直感的な一般化結果を紹介する。
これらのモデルをさらに微調整して、少数のサンプルに対してほぼゼロに近いトレーニング損失を達成することによって、長いシーケンス生成能力が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-12-05T16:34:20Z) - FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。
いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-27T15:53:49Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - CUE: An Uncertainty Interpretation Framework for Text Classifiers Built
on Pre-Trained Language Models [28.750894873827068]
本稿では,PLMモデルに固有の不確かさを解釈することを目的とした,CUEと呼ばれる新しいフレームワークを提案する。
摂動と原文表現の予測不確実性の違いを比較することにより,不確実性の原因となる潜伏次元を同定することができる。
論文 参考訳(メタデータ) (2023-06-06T11:37:46Z) - Better Language Model with Hypernym Class Prediction [101.8517004687825]
クラスベース言語モデル (LM) は、コンテキストの疎結合に$n$-gramのLMで対処するために長年開発されてきた。
本研究では,このアプローチをニューラルLMの文脈で再考する。
論文 参考訳(メタデータ) (2022-03-21T01:16:44Z) - Generative Text Modeling through Short Run Inference [47.73892773331617]
本研究は、推論のためのショートランダイナミックスを提案し、潜伏変数の以前の分布から変化し、後続分布によって導かれる少数のランゲヴィンダイナミックスステップを実行する。
短絡力学で訓練されたモデルは、強い言語モデルやVAEベースラインと比較して、より正確にデータをモデル化し、後方崩壊の兆候は示さない。
論文 参考訳(メタデータ) (2021-05-27T09:14:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。