論文の概要: Temporal Guidance for Large Language Models
- arxiv url: http://arxiv.org/abs/2601.21744v1
- Date: Thu, 29 Jan 2026 14:01:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.874145
- Title: Temporal Guidance for Large Language Models
- Title(参考訳): 大規模言語モデルのための時間的ガイダンス
- Authors: Hong-Kai Zheng, Piji Li,
- Abstract要約: 我々は,時間的次元,すなわち時間的条件ガイダンス(TeGu)に沿った新たなコントラスト誘導戦略を提案する。
提案手法は,マルチトークン予測(MTP)を利用して,モデル自己コントラストに対する弱いアマチュア予測を構築する。
さまざまなモデルシリーズとベンチマークで、TeGuはメモリ消費と計算オーバーヘッドを低く保ちながら、大幅なパフォーマンス向上を実現している。
- 参考スコア(独自算出の注目度): 22.7968403903992
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive Decoding (CD) enhances the generation quality of large language models (LLMs) but incurs significant additional computational overhead due to the need for an auxiliary model. Existing internal self-contrastive decoding methods, such as Decoding by Contrasting Layers (DoLa), focus on discrepancies across different layers, which are notably unstable on small-scale models. In this work, based on the observation that LLMs exhibit local preferences, we propose a novel contrastive guidance strategy along the temporal dimension, namely Temporal Guidance (TeGu). Our method ingeniously leverages Multi-Token Prediction (MTP) to construct weaker amateur predictions for model self-contrast. To standardize the implementation of this mechanism, we further introduce a lightweight Conditional MTP Projector (cMTPP), which avoids maintaining multiple independent networks as required by other MTP modules. Across various model series and benchmarks, TeGu achieves significant performance improvements while maintaining low additional memory consumption and computational overhead.
- Abstract(参考訳): Contrastive Decoding (CD)は、大規模言語モデル(LLM)の生成品質を向上させるが、補助モデルを必要とするため、計算オーバーヘッドが大幅に増大する。
Decoding by Contrasting Layers (DoLa)のような既存の自己コントラストデコーディング手法は、特に小規模モデルでは不安定な、異なるレイヤ間の相違に重点を置いている。
本研究は,LLMが局所的嗜好を示すという観察に基づいて,時間的次元,すなわち時間的誘導(TeGu)に沿った新たなコントラスト的ガイダンス戦略を提案する。
提案手法は,マルチトークン予測(MTP)を利用して,モデル自己コントラストに対する弱いアマチュア予測を構築する。
本機構の実装を標準化するために,他のMPPモジュールが要求する複数の独立ネットワークの維持を回避する軽量な条件付きMPPプロジェクタ(cMTPP)を導入する。
さまざまなモデルシリーズとベンチマークで、TeGuはメモリ消費と計算オーバーヘッドを低く保ちながら、大幅なパフォーマンス向上を実現している。
関連論文リスト
- Beyond Real Weights: Hypercomplex Representations for Stable Quantization [6.708338010963415]
マルチモーダル言語モデル(MLLM)は、高次元視覚特徴を言語表現と整合させるために、大きなパラメータ容量を必要とする。
本稿では,高密度フィードフォワードネットワークブロックを徐々に置き換えることで,これらのモデルを圧縮するプログレッシブリパラメタライゼーション戦略を提案する。
残留スケジュールは、軽量な再構築と知識蒸留の損失と共に、PHMモジュールが訓練中に高密度なモジュールの機能的挙動を継承することを保証する。
論文 参考訳(メタデータ) (2025-12-09T12:10:57Z) - Fast and Expressive Multi-Token Prediction with Probabilistic Circuits [29.853857313543468]
MTP(Multi-token Prediction)は、大規模言語モデル(LLM)における生成を著しく高速化するための重要な戦略である。
確率回路(PC)の枠組みにおけるMPPの表現性と遅延のトレードオフについて検討する。
我々のフレームワークであるMTPCは、将来のトークン上の共同分布をエンコードする様々な方法を探索することを可能にする。
論文 参考訳(メタデータ) (2025-11-14T14:33:14Z) - Mamba Drafters for Speculative Decoding [58.080550222549064]
SSM(State-of-the-art State Space Model)であるMambaをベースとした新しいドラフトモデルを提案する。
SSMの線形構造を活用することにより、従来のトランスフォーマー法に固有の二次的複雑性を回避することができる。
高品質なドラフト候補を生成するための新しいテスト時間木探索アルゴリズムにより、効率をさらに向上する。
論文 参考訳(メタデータ) (2025-06-01T22:52:47Z) - LatentLLM: Attention-Aware Joint Tensor Compression [50.33925662486034]
大規模言語モデル(LLM)と大規模マルチモーダルモデル(LMM)は膨大な計算量とメモリ資源を必要とする。
本稿では,LLM/LMMを低次元潜在構造に変換するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-23T22:39:54Z) - Latent Thought Models with Variational Bayes Inference-Time Computation [52.63299874322121]
ラテント思考モデル(LTM)は、ラテント空間における明示的な事前モデルに従う明示的なラテント思考ベクトルを包含する。
LTMは自己回帰モデルや離散拡散モデルよりも優れたサンプルおよびパラメータ効率を示す。
論文 参考訳(メタデータ) (2025-02-03T17:50:34Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。