論文の概要: Induced Natural Language Rationales and Interleaved Markup Tokens Enable
Extrapolation in Large Language Models
- arxiv url: http://arxiv.org/abs/2208.11445v1
- Date: Wed, 24 Aug 2022 11:25:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-25 12:28:07.605116
- Title: Induced Natural Language Rationales and Interleaved Markup Tokens Enable
Extrapolation in Large Language Models
- Title(参考訳): 大規模言語モデルにおける外挿可能な自然言語合理化とインターリーブマークアップトークン
- Authors: Mirelle Bueno, Carlos Gemmel, Jeffrey Dalton, Roberto Lotufo, Rodrigo
Nogueira
- Abstract要約: トレーニング例として提示されるものよりも長いシーケンスの予測を行う能力は、ディープラーニングモデルにとって難しい問題である。
最近の研究は、この制限が最先端のTransformerベースのモデルで持続していることを示している。
大規模言語モデルがアーキテクチャや訓練手順を変更することなく外挿に成功できることを実証する。
- 参考スコア(独自算出の注目度): 8.166629393064097
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to extrapolate, i.e., to make predictions on sequences that are
longer than those presented as training examples, is a challenging problem for
current deep learning models. Recent work shows that this limitation persists
in state-of-the-art Transformer-based models. Most solutions to this problem
use specific architectures or training methods that do not generalize to other
tasks. We demonstrate that large language models can succeed in extrapolation
without modifying their architecture or training procedure. Experimental
results show that generating step-by-step rationales and introducing marker
tokens are both required for effective extrapolation. First, we induce it to
produce step-by-step rationales before outputting the answer to effectively
communicate the task to the model. However, as sequences become longer, we find
that current models struggle to keep track of token positions. To address this
issue, we interleave output tokens with markup tokens that act as explicit
positional and counting symbols. Our findings show how these two complementary
approaches enable remarkable sequence extrapolation and highlight a limitation
of current architectures to effectively generalize without explicit surface
form guidance. Code available at
https://github.com/MirelleB/induced-rationales-markup-tokens
- Abstract(参考訳): トレーニング例として提示されるものよりも長いシーケンスの予測を推定する能力は、現在のディープラーニングモデルにとって難しい問題である。
最近の研究は、この制限が最先端のTransformerベースのモデルで持続していることを示している。
この問題に対するほとんどのソリューションは、他のタスクに一般化しない特定のアーキテクチャやトレーニングメソッドを使用する。
大規模言語モデルがアーキテクチャや訓練手順を変更することなく外挿に成功できることを実証する。
実験の結果, 効果的な外挿には, ステップバイステップの合理性の生成とマーカートークンの導入が必要であることがわかった。
まず,タスクをモデルに効果的に伝達するために,応答を出力する前にステップバイステップの合理化を誘導する。
しかし、シーケンスが長くなるにつれて、現在のモデルはトークンの位置を追跡するのに苦労していることがわかった。
この問題に対処するため、明示的な位置とカウントシンボルとして機能するマークアップトークンで出力トークンをインターリーブする。
これらの2つの相補的アプローチは, 顕著なシーケンス外挿を可能にし, 表面形状ガイダンスを使わずに効果的に一般化する現在のアーキテクチャの限界を浮き彫りにしている。
https://github.com/MirelleB/induced-rationales-markup-tokensで利用可能なコード
関連論文リスト
- Bridging the Training-Inference Gap in LLMs by Leveraging Self-Generated Tokens [31.568675300434816]
言語モデルは、トレーニングデータセットで過去のトークンが与えられた次のトークンの可能性を最大化するためにしばしば訓練される。
推論時間の間は、前述したトークンを入力として次のトークンを予測することによって、テキストを逐次かつ自動回帰的に生成する。
本稿では、モデル自己生成に基づく2つの簡単なアプローチを提案し、この訓練時間と推論時間との相違に対処する。
論文 参考訳(メタデータ) (2024-10-18T17:48:27Z) - Semformer: Transformer Language Models with Semantic Planning [18.750863564495006]
次世代の予測は、現在のニューラルネットワークモデルの主要なコンポーネントである。
本稿では,応答のセマンティックプランニングを明示的にモデル化したトランスフォーマー言語モデルのトレーニング手法であるSemformerを紹介する。
論文 参考訳(メタデータ) (2024-09-17T12:54:34Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - Understanding and Mitigating Tokenization Bias in Language Models [6.418593476658017]
State-of-the-art言語モデルは自己回帰型であり、トークンとして知られるサブワード単位で動作する。
一般的な符号化方式は、より多くのトレーニングやデータで緩和できないサンプリングバイアスを引き起こすことを示す。
トークン化データに基づいて訓練された任意の言語モデルからバイアスのない推定値を得るための新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-24T17:38:02Z) - TokenUnify: Scalable Autoregressive Visual Pre-training with Mixture Token Prediction [61.295716741720284]
TokenUnifyは、ランダムトークン予測、次のトークン予測、次のトークン予測を統合する新しい事前学習手法である。
TokenUnifyと共同で,超高解像度の大規模電子顕微鏡画像データセットを構築した。
このデータセットには1億2000万以上の注釈付きボクセルが含まれており、これまでで最大のニューロンセグメンテーションデータセットとなっている。
論文 参考訳(メタデータ) (2024-05-27T05:45:51Z) - Fishing for Magikarp: Automatically Detecting Under-trained Tokens in Large Language Models [4.165536532090932]
言語モデルにおけるトークン作成とモデルトレーニングの切り離しにより、悪名高いSolidGoldMagikarpトークンのような特定の入力が不要なモデル動作を引き起こす。
本稿では,大規模言語モデルトークン化器の包括的解析,特に未学習トークンの検出を対象とする。
そこで我々は,トークン分析,モデルウェイトベースインジケータ,およびプロンプト技術の組み合わせにより,これらの問題のあるトークンを自動的に検出する新規かつ効果的な手法を開発した。
論文 参考訳(メタデータ) (2024-05-08T20:37:56Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - Tokenization Consistency Matters for Generative Models on Extractive NLP
Tasks [54.306234256074255]
生成モデルの訓練において一般的に無視されるトークン化の不整合の問題を特定する。
この問題は、入力と出力が無矛盾にトークン化されると、これらのタスクの抽出特性を損なう。
一貫性のあるトークン化では、ドメイン内のデータセットとドメイン外のデータセットの両方で、モデルのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2022-12-19T23:33:21Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。