Fugu-MT 論文翻訳(概要): On multi-token prediction for efficient LLM inference

論文の概要: On multi-token prediction for efficient LLM inference

arxiv url: http://arxiv.org/abs/2502.09419v1
Date: Thu, 13 Feb 2025 15:42:44 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-14 20:05:35.326269
Title: On multi-token prediction for efficient LLM inference
Title（参考訳）: 効率的なLLM推論のためのマルチトークン予測について
Authors: Somesh Mehra, Javier Alonso Garcia, Lukas Mauch,
Abstract要約: まず, 中間トークン確率に対する数値境界化により, MTP の能力を本質的に有することを示す。次に,凍ったLCMにMPPヘッドを組み込むことの課題について検討し,その隠蔽層がNTPに強く特化していることを見出した。
参考スコア（独自算出の注目度）: 0.36681882674260474
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We systematically investigate multi-token prediction (MTP) capabilities within LLMs pre-trained for next-token prediction (NTP). We first show that such models inherently possess MTP capabilities via numerical marginalization over intermediate token probabilities, though performance is data-dependent and improves with model scale. Furthermore, we explore the challenges of integrating MTP heads into frozen LLMs and find that their hidden layers are strongly specialized for NTP, making adaptation non-trivial. Finally, we show that while joint training of MTP heads with the backbone improves performance, it cannot fully overcome this barrier, prompting further research in this direction. Our findings provide a deeper understanding of MTP applied to pretrained LLMs, informing strategies for accelerating inference through parallel token prediction.
Abstract（参考訳）: 我々は,Next-token Prediction (NTP) のために事前訓練したLLMにおけるMTP(Multi-token Prediction)機能について系統的に検討した。まず,これらのモデルが,データ依存型であり,モデルスケールによって改善されているにもかかわらず,中間トークン確率の数値的限界化によるMPP機能を持つことを示す。さらに,MTPヘッドを凍結LDMに組み込むことの課題について検討し,その隠蔽層がNTPに強く特化しており,適応が簡単でないことを見出した。最後に,MPPヘッドと背骨との協調訓練により性能が向上するが,この障壁を完全に克服することはできず,さらなる研究が進められていることを示す。本研究は,事前学習したLPMに適用したMPPについてより深く理解し,並列トークン予測による推論の促進戦略を示唆するものである。

関連論文リスト

Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文参考訳（メタデータ） (2025-06-15T05:42:29Z)
Mitigating Spurious Correlations in LLMs via Causality-Aware Post-Training [57.03005244917803]
大規模言語モデル (LLMs) は、事前学習中に得られた素早い相関関係により、アウト・オブ・ディストリビューション (OOD) のサンプルで失敗することが多い。ここでは、因果認識後学習(CAPT)を通して、このような素因的相関を緩和することを目的とする。公式因果推論ベンチマークCLadderと論理推論データセットPrOntoQAの実験により、CAPTで微調整された3Bスケールの言語モデルでは、従来のSFTおよびより大きなLLMを分散処理(ID)およびOODタスクで上回る結果が得られた。
論文参考訳（メタデータ） (2025-06-11T06:30:28Z)
Pre-Training Curriculum for Multi-Token Prediction in Language Models [2.8071268036220003]
MTP(Multi-token Prediction)は、最近提案された言語モデルのための事前学習目標である。本稿では,MTPトレーニングのためのカリキュラム学習戦略を提案し,前向きカリキュラムと逆カリキュラムの2つの変種を探索する。
論文参考訳（メタデータ） (2025-05-28T18:19:18Z)
L-MTP: Leap Multi-Token Prediction Beyond Adjacent Context for Large Language Models [69.1271366892683]
本稿では,革新的なトークン予測手法である跳躍マルチトークン予測(L-MTP)を提案する。従来のMTPとは異なり、L-MTPは中間トークンを戦略的にスキップし、1つのフォワードパスで非逐次トークンを予測する。理論的には,L-MTPによる推論効率の向上の利点を実証する。
論文参考訳（メタデータ） (2025-05-23T05:59:46Z)
Injecting Imbalance Sensitivity for Multi-Task Learning [36.60453299563175]
マルチタスク学習(MTL)は、リアルタイムアプリケーションにディープラーニングモデルをデプロイするための有望なアプローチとして登場した。近年,MLLにおけるタスク共有表現を確立するための最適化に基づく学習パラダイムが提案されている。本稿は、これらの研究が主に紛争問題を強調しつつ、MTLにおける不均衡/支配の潜在的に重大な影響を無視していることを実証的に論じる。
論文参考訳（メタデータ） (2025-03-11T03:11:54Z)
Reasoning Bias of Next Token Prediction Training [5.188841610098436]
次世代トークン予測(NTP)は,大規模言語モデル(LLM)の主要なトレーニングパラダイムであるトレーニング中にNTPが騒音に曝露しても,推論能力は上回っていることが明らかとなった。この逆直感的な結果は、トレーニング力学における雑音の正規化の影響に起因している。
論文参考訳（メタデータ） (2025-02-04T04:46:41Z)
Understanding Chain-of-Thought in LLMs through Information Theory [16.78730663293352]
我々は,情報理論レンズを用いて,大規模言語モデル(LLM)におけるChain-of-Thought(CoT)推論を定式化する。具体的には、各推論ステップにおける情報ゲインの定量化を行い、障害モードの識別を可能にする。提案手法の有効性を,玩具およびGSM-8Kデータに対する広範囲な実験により実証し,既存の結果に基づく手法よりも優れていることを示した。
論文参考訳（メタデータ） (2024-11-18T19:14:36Z)
Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能評価のためのより効率的な指標として、事前学習損失に焦点を当てている。我々は、データソース間のFLOPに基づいて、ドメイン固有の事前学習損失を予測するために、電力法解析関数を拡張した。我々は2層ニューラルネットワークを用いて、複数のドメイン固有の損失と下流性能の非線形関係をモデル化する。
論文参考訳（メタデータ） (2024-10-11T04:57:48Z)
SFTMix: Elevating Language Model Instruction Tuning with Mixup Recipe [30.03925858123481]
従来のNTPパラダイムを超えて,命令チューニング性能を高める新しいレシピであるSFTMixを提案する。トレーニング力学に基づいて、異なる信頼度を持つ例は、指導訓練過程において異なる役割を演じるべきであると論じる。このアプローチにより、SFTMixは、幅広いインストラクションフォローとヘルスケアドメイン固有のSFTタスクにおいて、NTPを大幅に上回ることができる。
論文参考訳（メタデータ） (2024-10-07T17:52:21Z)
NDP: Next Distribution Prediction as a More Broad Target [59.30497395313209]
我々はNext Distribution Prediction (NDP)を導入し、$n$-gramの分布を使って1ホットターゲットを置き換える。 NDPは翻訳タスクで最大2.97 COMETの改善、一般タスクで平均0.61、医療領域で平均10.75の改善を達成できる。
論文参考訳（メタデータ） (2024-08-30T16:13:49Z)
Multi-Epoch learning with Data Augmentation for Deep Click-Through Rate Prediction [53.88231294380083]
非連続的な学習シナリオと連続的な学習シナリオの両方に適合する、新しいMulti-Epoch Learning with Data Augmentation (MEDA)フレームワークを導入する。 MEDAは、その後のトレーニングデータへの埋め込み層の依存性を減らし、過度な適合を最小化する。実験の結果,プレトレーニングした層が新しい埋め込み空間に適応し,過度に適合することなく性能を向上できることが確認された。
論文参考訳（メタデータ） (2024-06-27T04:00:15Z)
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。 LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文参考訳（メタデータ） (2024-06-20T13:08:09Z)
Chain-of-Thought Prompting for Demographic Inference with Large Multimodal Models [58.58594658683919]
大規模マルチモーダルモデル (LMM) は、様々な研究課題において変換可能性を示している。以上の結果から,LMMはゼロショット学習,解釈可能性,未修正入力の処理に長所があることが示唆された。本稿では,目標外予測問題を効果的に緩和するChain-of-Thought拡張プロンプト手法を提案する。
論文参考訳（メタデータ） (2024-05-24T16:26:56Z)
The Gaps between Pre-train and Downstream Settings in Bias Evaluation and Debiasing [74.7319697510621]
In-Context Learning (ICL)は、FTベースのデバイアス法と比較して、PLMの変更を小さくする。 ICL-based debiasing method is a higher correlation between intrinsic and extrinsic bias scores than FT-based method。
論文参考訳（メタデータ） (2024-01-16T17:15:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。