論文の概要: Induced Natural Language Rationales and Interleaved Markup Tokens Enable
Extrapolation in Large Language Models
- arxiv url: http://arxiv.org/abs/2208.11445v1
- Date: Wed, 24 Aug 2022 11:25:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-25 12:28:07.605116
- Title: Induced Natural Language Rationales and Interleaved Markup Tokens Enable
Extrapolation in Large Language Models
- Title(参考訳): 大規模言語モデルにおける外挿可能な自然言語合理化とインターリーブマークアップトークン
- Authors: Mirelle Bueno, Carlos Gemmel, Jeffrey Dalton, Roberto Lotufo, Rodrigo
Nogueira
- Abstract要約: トレーニング例として提示されるものよりも長いシーケンスの予測を行う能力は、ディープラーニングモデルにとって難しい問題である。
最近の研究は、この制限が最先端のTransformerベースのモデルで持続していることを示している。
大規模言語モデルがアーキテクチャや訓練手順を変更することなく外挿に成功できることを実証する。
- 参考スコア(独自算出の注目度): 8.166629393064097
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to extrapolate, i.e., to make predictions on sequences that are
longer than those presented as training examples, is a challenging problem for
current deep learning models. Recent work shows that this limitation persists
in state-of-the-art Transformer-based models. Most solutions to this problem
use specific architectures or training methods that do not generalize to other
tasks. We demonstrate that large language models can succeed in extrapolation
without modifying their architecture or training procedure. Experimental
results show that generating step-by-step rationales and introducing marker
tokens are both required for effective extrapolation. First, we induce it to
produce step-by-step rationales before outputting the answer to effectively
communicate the task to the model. However, as sequences become longer, we find
that current models struggle to keep track of token positions. To address this
issue, we interleave output tokens with markup tokens that act as explicit
positional and counting symbols. Our findings show how these two complementary
approaches enable remarkable sequence extrapolation and highlight a limitation
of current architectures to effectively generalize without explicit surface
form guidance. Code available at
https://github.com/MirelleB/induced-rationales-markup-tokens
- Abstract(参考訳): トレーニング例として提示されるものよりも長いシーケンスの予測を推定する能力は、現在のディープラーニングモデルにとって難しい問題である。
最近の研究は、この制限が最先端のTransformerベースのモデルで持続していることを示している。
この問題に対するほとんどのソリューションは、他のタスクに一般化しない特定のアーキテクチャやトレーニングメソッドを使用する。
大規模言語モデルがアーキテクチャや訓練手順を変更することなく外挿に成功できることを実証する。
実験の結果, 効果的な外挿には, ステップバイステップの合理性の生成とマーカートークンの導入が必要であることがわかった。
まず,タスクをモデルに効果的に伝達するために,応答を出力する前にステップバイステップの合理化を誘導する。
しかし、シーケンスが長くなるにつれて、現在のモデルはトークンの位置を追跡するのに苦労していることがわかった。
この問題に対処するため、明示的な位置とカウントシンボルとして機能するマークアップトークンで出力トークンをインターリーブする。
これらの2つの相補的アプローチは, 顕著なシーケンス外挿を可能にし, 表面形状ガイダンスを使わずに効果的に一般化する現在のアーキテクチャの限界を浮き彫りにしている。
https://github.com/MirelleB/induced-rationales-markup-tokensで利用可能なコード
関連論文リスト
- CodeArt: Better Code Models by Attention Regularization When Symbols Are
Lacking [12.458135956476639]
トランスフォーマーベースのコードモデルは、多くのソフトウェアエンジニアリングタスクにおいて素晴らしいパフォーマンスを持つ。
しかし、それらの効果は、シンボルが欠落しているか、情報がないときに低下する。
本稿では,シンボルが不足している場合の一般符号モデルの事前学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T05:13:22Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - Opening the Black Box: Analyzing Attention Weights and Hidden States in
Pre-trained Language Models for Non-language Tasks [0.8889304968879164]
階層構造を持つ制約付き算術問題に対して,事前学習した言語モデルを適用し,その注意重みと隠れ状態を分析する。
この調査は、人間の問題解決戦略と同様に、階層的な問題を適度に構造化した方法で解決するモデルによって、有望な結果を明らかにしている。
注意分析により、モデルがListOpsデータセットの長いシーケンスに一般化できると仮定できる。
論文 参考訳(メタデータ) (2023-06-21T11:48:07Z) - Token-Level Fitting Issues of Seq2seq Models [15.81037035729968]
シーケンス・ツー・シーケンス(seq2seq)モデルは自然言語処理、コンピュータビジョン、その他のディープラーニングタスクに広く使われている。
早期停止でトレーニングされたSeq2seqモデルはトークンレベルでの問題に悩まされていることがわかった。
論文 参考訳(メタデータ) (2023-05-08T06:40:24Z) - Tokenization Consistency Matters for Generative Models on Extractive NLP
Tasks [54.306234256074255]
生成モデルの訓練において一般的に無視されるトークン化の不整合の問題を特定する。
この問題は、入力と出力が無矛盾にトークン化されると、これらのタスクの抽出特性を損なう。
一貫性のあるトークン化では、ドメイン内のデータセットとドメイン外のデータセットの両方で、モデルのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2022-12-19T23:33:21Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - NaturalAdversaries: Can Naturalistic Adversaries Be as Effective as
Artificial Adversaries? [61.58261351116679]
自然言語理解タスクのための2段階の逆例生成フレームワーク(NaturalAdversaries)を提案する。
モデルパラメータへのアクセスレベルに基づいて、ブラックボックスとホワイトボックスの双方に適応可能である。
以上の結果から,これらの対立はドメイン全体にわたって一般化され,ニューラルネットワーク分類モデルの堅牢性向上に向けた今後の研究への洞察が得られた。
論文 参考訳(メタデータ) (2022-11-08T16:37:34Z) - Learning to Reason With Relational Abstractions [65.89553417442049]
関係抽象化の考え方を用いて,言語モデルにおいてより強力な推論能力を構築する方法について検討する。
このようなシーケンスをプロンプトとして提供したモデルでは,タスクの精度が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2022-10-06T00:27:50Z) - Training Dynamics for Text Summarization Models [45.62439188988816]
我々は、ニュース要約に着目して、世代モデルのトレーニングダイナミクスを分析する。
異なるデータセット (CNN/DM, XSum, MediaSum) と要約特性を用いて, モデルが微調整プロセスの異なる段階で何を学習するかを検討する。
コピー動作などの特性は、トレーニングプロセスの早い段階で学習され、これらの観察はドメイン間で堅牢であることがわかった。
一方, 隠蔽事実の幻覚などの事実誤りは後期に学習され, この行動は領域によって多様である。
論文 参考訳(メタデータ) (2021-10-15T21:13:41Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。