論文の概要: Semformer: Transformer Language Models with Semantic Planning
- arxiv url: http://arxiv.org/abs/2409.11143v1
- Date: Tue, 17 Sep 2024 12:54:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 16:45:13.807560
- Title: Semformer: Transformer Language Models with Semantic Planning
- Title(参考訳): Semformer: セマンティックプランニングを伴うトランスフォーマー言語モデル
- Authors: Yongjing Yin, Junran Ding, Kai Song, Yue Zhang,
- Abstract要約: 次世代の予測は、現在のニューラルネットワークモデルの主要なコンポーネントである。
本稿では,応答のセマンティックプランニングを明示的にモデル化したトランスフォーマー言語モデルのトレーニング手法であるSemformerを紹介する。
- 参考スコア(独自算出の注目度): 18.750863564495006
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Next-token prediction serves as the dominant component in current neural language models. During the training phase, the model employs teacher forcing, which predicts tokens based on all preceding ground truth tokens. However, this approach has been found to create shortcuts, utilizing the revealed prefix to spuriously fit future tokens, potentially compromising the accuracy of the next-token predictor. In this paper, we introduce Semformer, a novel method of training a Transformer language model that explicitly models the semantic planning of response. Specifically, we incorporate a sequence of planning tokens into the prefix, guiding the planning token representations to predict the latent semantic representations of the response, which are induced by an autoencoder. In a minimal planning task (i.e., graph path-finding), our model exhibits near-perfect performance and effectively mitigates shortcut learning, a feat that standard training methods and baseline models have been unable to accomplish. Furthermore, we pretrain Semformer from scratch with 125M parameters, demonstrating its efficacy through measures of perplexity, in-context learning, and fine-tuning on summarization tasks.
- Abstract(参考訳): 次世代の予測は、現在のニューラルネットワークモデルの主要なコンポーネントである。
トレーニングフェーズの間、モデルは教師の強制力を使用し、前のすべての真実のトークンに基づいてトークンを予測する。
しかし、このアプローチはショートカットを作成するために発見され、明らかにプレフィックスを利用して、将来のトークンに急激な適合を図り、次のトークン予測器の精度を損なう可能性がある。
本稿では,応答のセマンティック・プランニングを明示的にモデル化したトランスフォーマー言語モデルのトレーニング手法であるSemformerを紹介する。
具体的には、プレフィックスに計画トークンのシーケンスを組み込み、自動エンコーダによって誘導される応答の潜在意味表現を予測するために計画トークン表現を誘導する。
最小限の計画タスク(すなわちグラフパスフィニング)において、我々のモデルはほぼ完璧な性能を示し、ショートカット学習を効果的に軽減する。
さらに,Semformer をスクラッチから 125M パラメータで事前訓練し,その効果をパープレキシティ,文脈内学習,要約タスクの微調整などで実証した。
関連論文リスト
- Faster Language Models with Better Multi-Token Prediction Using Tensor Decomposition [5.575078692353885]
本稿では, 精度を損なうことなくサンプリング効率を向上させることを目的とした, 変圧器のマルチトークン予測のための新しいモデルを提案する。
階数=r$標準確率分解に一般化することにより、複数のトークンを同時に予測する改良されたモデルを開発する。
論文 参考訳(メタデータ) (2024-10-23T11:06:36Z) - Bridging the Training-Inference Gap in LLMs by Leveraging Self-Generated Tokens [31.568675300434816]
言語モデルは、トレーニングデータセットで過去のトークンが与えられた次のトークンの可能性を最大化するためにしばしば訓練される。
推論時間の間は、前述したトークンを入力として次のトークンを予測することによって、テキストを逐次かつ自動回帰的に生成する。
本稿では、モデル自己生成に基づく2つの簡単なアプローチを提案し、この訓練時間と推論時間との相違に対処する。
論文 参考訳(メタデータ) (2024-10-18T17:48:27Z) - TokenUnify: Scalable Autoregressive Visual Pre-training with Mixture Token Prediction [61.295716741720284]
TokenUnifyは、ランダムトークン予測、次のトークン予測、次のトークン予測を統合する新しい事前学習手法である。
TokenUnifyと共同で,超高解像度の大規模電子顕微鏡画像データセットを構築した。
このデータセットには1億2000万以上の注釈付きボクセルが含まれており、これまでで最大のニューロンセグメンテーションデータセットとなっている。
論文 参考訳(メタデータ) (2024-05-27T05:45:51Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - Prompting ELECTRA: Few-Shot Learning with Discriminative Pre-Trained
Models [43.7024573212373]
ELECTRAにプロンプトベースの数ショット学習を適用し,幅広いタスクにおいてマスキング言語モデルを上回る性能を示す。
本手法は,余分な計算オーバーヘッドを伴わずに,マルチトークン予測を含むタスクに容易に適応できる。
論文 参考訳(メタデータ) (2022-05-30T16:32:30Z) - Few-shot Subgoal Planning with Language Models [58.11102061150875]
事前訓練された言語モデルにエンコードされた言語は、細粒度のサブゴール列を推測できることを示す。
サブゴナル・インスペクションを強く仮定する最近の手法とは対照的に,我々の実験では,詳細なサブゴラル・シーケンスを微調整せずに推論できる言語モデルが示されている。
論文 参考訳(メタデータ) (2022-05-28T01:03:30Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z) - Latent Representation Prediction Networks [0.0]
満足できない表現を学習するこの原則を見いだす。
本稿では,この表現を予測関数とともに学習する新しい方法を提案する。
提案手法は, 標準強化学習法よりもサンプリング効率がよいことを示す。
論文 参考訳(メタデータ) (2020-09-20T14:26:03Z) - Train No Evil: Selective Masking for Task-Guided Pre-Training [97.03615486457065]
一般的な事前学習と微調整の間を選択的にマスキングするタスク誘導事前学習段階を付加した3段階のフレームワークを提案する。
提案手法は,50%未満のコストで同等あるいはさらに優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-04-21T03:14:22Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。