論文の概要: Reasoning Bias of Next Token Prediction Training
- arxiv url: http://arxiv.org/abs/2502.02007v2
- Date: Thu, 20 Feb 2025 03:38:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:25:52.885374
- Title: Reasoning Bias of Next Token Prediction Training
- Title(参考訳): 次世代の剣道予測訓練における推論バイアス
- Authors: Pengxiao Lin, Zhongwang Zhang, Zhi-Qin John Xu,
- Abstract要約: 次世代トークン予測(NTP)は,大規模言語モデル(LLM)の主要なトレーニングパラダイムである
トレーニング中にNTPが騒音に曝露しても,推論能力は上回っていることが明らかとなった。
この逆直感的な結果は、トレーニング力学における雑音の正規化の影響に起因している。
- 参考スコア(独自算出の注目度): 5.188841610098436
- License:
- Abstract: Since the inception of Large Language Models (LLMs), the quest to efficiently train them for superior reasoning capabilities has been a pivotal challenge. The dominant training paradigm for LLMs is based on next token prediction (NTP). Alternative methodologies, called Critical Token Prediction (CTP), focused exclusively on specific critical tokens (such as the answer in Q\&A dataset), aiming to reduce the overfitting of extraneous information and noise. Contrary to initial assumptions, our research reveals that despite NTP's exposure to noise during training, it surpasses CTP in reasoning ability. We attribute this counterintuitive outcome to the regularizing influence of noise on the training dynamics. Our empirical analysis shows that NTP-trained models exhibit enhanced generalization and robustness across various benchmark reasoning datasets, demonstrating greater resilience to perturbations and achieving flatter loss minima. These findings illuminate that NTP is instrumental in fostering reasoning abilities during pretraining, whereas CTP is more effective for finetuning, thereby enriching our comprehension of optimal training strategies in LLM development.
- Abstract(参考訳): LLM(Large Language Models)の登場以来、優れた推論能力のためにそれらを効率的に訓練しようとする試みは、重要な課題となっている。
LLMのトレーニングパラダイムは次のトークン予測(NTP)に基づいている。
クリティカルトークン予測(Critical Token Prediction, CTP)と呼ばれる別の手法は、特定のクリティカルトークン(Q\&Aデータセットの回答など)にのみ焦点を絞ったもので、外部情報やノイズの過度な適合を減らすことを目的としている。
初期仮定とは対照的に,本研究では,NTPがトレーニング中にノイズにさらされているにもかかわらず,推論能力においてCTPを上回っていることを明らかにした。
この逆直感的な結果は、トレーニング力学における雑音の正規化の影響によるものである。
実験により, NTP学習モデルでは, 様々なベンチマーク推論データセットの一般化と堅牢性が向上し, 摂動に対する抵抗性が向上し, より平坦な損失最小値が得られることが示された。
以上の結果から,NTPは予備訓練における推論能力の育成に有効であるのに対し,CTPは微調整に有効であり,LCM開発における最適なトレーニング戦略の理解度を高めることが示唆された。
関連論文リスト
- Improve Vision Language Model Chain-of-thought Reasoning [86.83335752119741]
視覚言語モデル(VLM)におけるチェーン・オブ・シント(CoT)推論は、解釈可能性と信頼性を向上させるために不可欠である。
我々は,より詳細な回答を必要とする推論タスクに対して,短時間でVLMを訓練することはよくないことを示す。
論文 参考訳(メタデータ) (2024-10-21T17:00:06Z) - Non-asymptotic Convergence of Training Transformers for Next-token Prediction [48.9399496805422]
トランスフォーマーは、シーケンシャルなデータを扱う優れた能力のために、現代の機械学習において驚くべき成功を収めています。
本稿では, 単層変圧器のトレーニング力学の微細な非漸近解析を行う。
トレーニングされたトランスフォーマーは,データセットシフトによる非トーケン予測能力を示すことを示す。
論文 参考訳(メタデータ) (2024-09-25T20:22:06Z) - HiDe-PET: Continual Learning via Hierarchical Decomposition of Parameter-Efficient Tuning [55.88910947643436]
予備学習モデル(PTM)とパラメータ効率チューニング(PET)を組み合わせた連続学習(CL)統合フレームワークを提案する。
タスク固有知識とタスク共有知識を取り入れることで目的を明示的に最適化する革新的な手法である階層分解PET(HiDe-PET)を提案する。
提案手法は,近年の強いベースラインの幅広いスペクトルに対して,極めて優れた性能を示す。
論文 参考訳(メタデータ) (2024-07-07T01:50:25Z) - Learning Planning-based Reasoning by Trajectories Collection and Process Reward Synthesizing [61.98556945939045]
収集された軌道上でのDPO(Direct Preference Optimization)を通して計画に基づく推論を学習するフレームワークを提案する。
論理的推論ベンチマークの挑戦的な結果から,学習フレームワークの有効性が示された。
論文 参考訳(メタデータ) (2024-02-01T15:18:33Z) - Hierarchical Decomposition of Prompt-Based Continual Learning:
Rethinking Obscured Sub-optimality [55.88910947643436]
大量のラベルのないデータを実際に扱うためには、自己教師付き事前トレーニングが不可欠である。
HiDe-Promptは、タスク固有のプロンプトと統計のアンサンブルで階層的なコンポーネントを明示的に最適化する革新的なアプローチである。
実験では,HiDe-Promptの優れた性能と,継続学習における事前学習パラダイムへの頑健さを実証した。
論文 参考訳(メタデータ) (2023-10-11T06:51:46Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - Don't Stop Pretraining? Make Prompt-based Fine-tuning Powerful Learner [14.975436239088312]
我々は,NLPの事前学習が下流タスクにおけるファインチューニング(FT)の性能を向上させるという概念を再考する。
本稿では,Promptベースの継続事前学習(PCP)を提案する。
21のベンチマークによる実証評価の結果,PCP は最先端のプロンプトベースのFT アプローチの性能を一貫して向上することが示された。
論文 参考訳(メタデータ) (2023-05-02T18:25:30Z) - CARE: Certifiably Robust Learning with Reasoning via Variational
Inference [26.210129662748862]
推論パイプライン(CARE)を用いた頑健な学習を提案する。
CAREは、最先端のベースラインに比べて、かなり高い信頼性のロバスト性を達成する。
さらに,CAREの実証的ロバスト性および知識統合の有効性を示すために,異なるアブレーション研究を行った。
論文 参考訳(メタデータ) (2022-09-12T07:15:52Z) - Pre-Trained Models: Past, Present and Future [126.21572378910746]
大規模事前訓練モデル(PTM)は近年大きな成功を収め、人工知能(AI)分野におけるマイルストーンとなった。
知識を巨大なパラメータに格納し、特定のタスクを微調整することで、巨大なパラメータに暗黙的にエンコードされた豊富な知識は、さまざまな下流タスクの恩恵を受けることができる。
AIコミュニティが、モデルをスクラッチから学習するのではなく、下流タスクのバックボーンとしてPTMを採用することは、今、コンセンサスになっている。
論文 参考訳(メタデータ) (2021-06-14T02:40:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。