論文の概要: Token Assorted: Mixing Latent and Text Tokens for Improved Language Model Reasoning
- arxiv url: http://arxiv.org/abs/2502.03275v1
- Date: Wed, 05 Feb 2025 15:33:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:29:20.713774
- Title: Token Assorted: Mixing Latent and Text Tokens for Improved Language Model Reasoning
- Title(参考訳): Token Assorted:改良型言語モデル推論のための潜在言語とテキストトークンの混合
- Authors: DiJia Su, Hanlin Zhu, Yingchen Xu, Jiantao Jiao, Yuandong Tian, Qinqing Zheng,
- Abstract要約: 大規模言語モデル(LLM)は、チェーン・オブ・シークレット(CoT)データに基づいて訓練された場合、推論と計画が優れている。
そこで我々は,遅延離散トークンを用いて推論過程を部分的に抽象化するハイブリッド表現を提案する。
- 参考スコア(独自算出の注目度): 44.84219266082269
- License:
- Abstract: Large Language Models (LLMs) excel at reasoning and planning when trained on chainof-thought (CoT) data, where the step-by-step thought process is explicitly outlined by text tokens. However, this results in lengthy inputs where many words support textual coherence rather than core reasoning information, and processing these inputs consumes substantial computation resources. In this work, we propose a hybrid representation of the reasoning process, where we partially abstract away the initial reasoning steps using latent discrete tokens generated by VQ-VAE, significantly reducing the length of reasoning traces. We explore the use of latent trace abstractions in two scenarios: 1) training the model from scratch for the Keys-Finding Maze problem, 2) fine-tuning LLMs on this hybrid data with an extended vocabulary including unseen latent tokens, for both logical and mathematical reasoning problems. To facilitate effective learning, we introduce a simple training procedure that randomly mixes latent and text tokens, which enables fast adaptation to new latent tokens. Our approach consistently outperforms the baselines methods in various benchmarks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、チェーン・オブ・シント(CoT)データに基づいて訓練された場合の推論と計画において優れており、ステップ・バイ・ステップの思考プロセスはテキストトークンによって明確に概説されている。
しかし、この結果、多くの単語が中核的推論情報よりもテキストコヒーレンスをサポートする長大な入力が得られ、これらの入力を処理することは、かなりの計算資源を消費する。
本稿では,VQ-VAEが生成する遅延離散トークンを用いて推論過程を部分的に抽象化し,推論トレースの長さを大幅に短縮するハイブリッド表現を提案する。
2つのシナリオで潜在トレース抽象化の使用について検討する。
1)キーズフィンディング迷路問題のスクラッチからモデルを訓練する。
2) 論理的および数学的推論問題に対して, 未確認の潜在トークンを含む語彙を拡張したハイブリッドデータを用いた微調整LDMを行った。
効果的な学習を容易にするために,潜在トークンとテキストトークンをランダムに混合する簡単なトレーニング手順を導入する。
我々のアプローチは、様々なベンチマークにおけるベースラインメソッドよりも一貫して優れています。
関連論文リスト
- Not all tokens are created equal: Perplexity Attention Weighted Networks for AI generated text detection [49.15148871877941]
大規模言語モデル(LLM)の検出に理論的に魅力的なアプローチを提供する次点分布出力
本稿では,LLMの最後の隠蔽状態を用いて,列長の次トーケン分布のメトリクスに基づく一連の特徴量の重み付けを行うパープレキシティ注意重み付けネットワーク(PAWN)を提案する。
PAWNは、トレーニング可能なパラメータのごく一部を持つ最強のベースラインよりも、競争力があり、より優れた分散性能を示している。
論文 参考訳(メタデータ) (2025-01-07T17:00:49Z) - H-STAR: LLM-driven Hybrid SQL-Text Adaptive Reasoning on Tables [56.73919743039263]
本稿では,2段階のプロセスにシンボル的アプローチと意味的アプローチ(テキスト的アプローチ)を統合し,制約に対処する新しいアルゴリズムを提案する。
実験の結果,H-STARは3つの質問応答(QA)と事実検証データセットにおいて,最先端の手法を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2024-06-29T21:24:19Z) - Tokenization Is More Than Compression [14.939912120571728]
Byte-Pairのような既存のトークン化アプローチ。
(BPE)はデータ圧縮の分野に由来する。
PathPieceは、文書のテキストを与えられた語彙に対して最小のトークン数に分割する新しいトークンライザである。
論文 参考訳(メタデータ) (2024-02-28T14:52:15Z) - MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。
このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。
第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文 参考訳(メタデータ) (2023-10-24T17:59:20Z) - LabelPrompt: Effective Prompt-based Learning for Relation Classification [31.291466190218912]
本稿では,関係分類タスクのための新しいプロンプト型学習手法であるLabelPromptを提案する。
GIVE MODEL CHOICES!'の直感により、まず関係ラベルを表すための追加トークンを定義し、これらのトークンを意味的初期化を伴う動詞としてみなす。
そして、予測関係と与えられた実体との整合性を緩和するために、コントラスト学習を伴うエンティティ認識モジュールを実装した。
論文 参考訳(メタデータ) (2023-02-16T04:06:25Z) - MURMUR: Modular Multi-Step Reasoning for Semi-Structured Data-to-Text
Generation [102.20036684996248]
多段階推論を用いた半構造化データからテキストを生成するための,ニューロシンボリックなモジュラーアプローチであるMURMURを提案する。
WebNLG や LogicNLG のような2つのデータ・テキスト生成タスクについて実験を行った。
論文 参考訳(メタデータ) (2022-12-16T17:36:23Z) - Between words and characters: A Brief History of Open-Vocabulary
Modeling and Tokenization in NLP [22.772546707304766]
単語と文字のハイブリッドなアプローチと,学習セグメンテーションに基づくサブワードベースのアプローチが提案され,評価されていることを示す。
すべてのアプリケーションに対して銀の弾丸特異解が存在することはあり得ない。
論文 参考訳(メタデータ) (2021-12-20T13:04:18Z) - Learning to Ask Conversational Questions by Optimizing Levenshtein
Distance [83.53855889592734]
明示的な編集動作によって最小レベンシュテイン距離(MLD)を最適化する強化反復シーケンス編集(RISE)フレームワークを導入する。
RISEは会話の特徴に関連するトークンに注意を払うことができる。
2つのベンチマークデータセットの実験結果から、RISEは最先端の手法を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2021-06-30T08:44:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。