論文の概要: Learning to Insert [PAUSE] Tokens for Better Reasoning
- arxiv url: http://arxiv.org/abs/2506.03616v1
- Date: Wed, 04 Jun 2025 06:48:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.18819
- Title: Learning to Insert [PAUSE] Tokens for Better Reasoning
- Title(参考訳): 推論を改善するために [PAUSE]トークンを挿入する学習
- Authors: Eunki Kim, Sangryul Kim, James Thorne,
- Abstract要約: 我々はDIT(Dynamic Inserting Tokens Training)と呼ばれる新しいアプローチを導入する。
本手法は,トークンログに類似したモデル信頼度が最も低いシーケンス内の位置を同定する。
GSM8Kでは最大4.7%、AQUA-RATでは3.23%、MBPPデータセットでは最大3.4%の精度向上を実現している。
- 参考スコア(独自算出の注目度): 6.823521786512908
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: To enhance reasoning capabilities, previous works have explored incorporating special-purpose tokens into the training process. These strategies strengthen the learning mechanism of transformer-based large language models (LLMs). Building on prior research, in which inserting dummy tokens consecutively just before reasoning steps can enhance effectiveness, we introduce a novel approach termed Dynamic Inserting Tokens Training (DIT). Our method identifies positions within sequences where model confidence is lowest according to token log-likelihood. Strategically inserting [PAUSE] tokens on these positions bolsters the model's predictive capabilities for subsequent tokens. Experimental results across diverse datasets and models, from the 2.7B model to the 8B model, demonstrate that DIT consistently outperforms traditional fine-tuning and previous token insertion methods. With this simple yet effective method, we achieve accuracy gains of up to 4.7%p on GSM8K, 3.23%p on AQUA-RAT, and pass@1 improvements of up to 3.4%p on MBPP datasets. Our work shows a model-based, dynamic approach rather than a heuristic one, thereby broadening the scope of research in reasoning.
- Abstract(参考訳): 推論能力を高めるために、以前の研究はトレーニングプロセスに特別な目的のトークンを組み込むことを検討してきた。
これらの戦略はトランスフォーマーベース大規模言語モデル(LLM)の学習メカニズムを強化する。
推論手順の直前にダミートークンを連続的に挿入することが有効性を高めるという先行研究に基づいて,DIT(Dynamic Inserting Tokens Training)と呼ばれる新しいアプローチを導入する。
本手法は,トークンログに類似したモデル信頼度が最も低いシーケンス内の位置を同定する。
これらの位置に[PAUSE]トークンを戦略的に挿入すると、その後のトークンに対するモデルの予測能力が向上します。
2.7Bモデルから8Bモデルまで、さまざまなデータセットやモデルにまたがる実験結果から、DITが従来の微調整法や従来のトークン挿入法より一貫して優れていることが示されている。
GSM8Kでは最大4.7%、AQUA-RATでは3.23%、MBPPデータセットでは最大3.4%の精度向上を実現している。
私たちの研究は、ヒューリスティックなアプローチではなく、モデルに基づくダイナミックなアプローチを示し、推論における研究の範囲を広げます。
関連論文リスト
- Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability [53.51560766150442]
臨界トークンは推論軌道内の要素であり、誤った結果に大きな影響を及ぼす。
本稿では,これらのトークンをロールアウトサンプリングによって識別する新しいフレームワークを提案する。
クリティカルトークンの識別と置換がモデル精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-11-29T18:58:22Z) - Faster Language Models with Better Multi-Token Prediction Using Tensor Decomposition [5.575078692353885]
本稿では, 精度を損なうことなくサンプリング効率を向上させることを目的とした, 変圧器のマルチトークン予測のための新しいモデルを提案する。
階数=r$標準確率分解に一般化することにより、複数のトークンを同時に予測する改良されたモデルを開発する。
論文 参考訳(メタデータ) (2024-10-23T11:06:36Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Exploring the Role of Token in Transformer-based Time Series Forecasting [10.081240480138487]
Transformer-based method is a mainstream approach for solve time series forecasting (TSF)
モデル構造を最適化することに集中しており、予測のためのトークンの役割に注意を払う研究はほとんどない。
勾配は、主に正のトークンと呼ばれる予測級数に寄与するトークンに依存する。
T-PEとV-PEを利用するために,トランスフォーマーベースのデュアルブランチフレームワークであるT2B-PEを提案する。
論文 参考訳(メタデータ) (2024-04-16T07:21:39Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。