論文の概要: The EOS Decision and Length Extrapolation
- arxiv url: http://arxiv.org/abs/2010.07174v1
- Date: Wed, 14 Oct 2020 15:46:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 13:28:55.366466
- Title: The EOS Decision and Length Extrapolation
- Title(参考訳): EOS決定と長さ外挿
- Authors: Benjamin Newman, John Hewitt, Percy Liang, Christopher D. Manning
- Abstract要約: 未知の配列長への外挿は、言語のニューラル生成モデルの課題である。
本研究では,EOS(+EOS)予測のために訓練されたネットワークと,訓練されていないネットワーク(-EOS)を比較検討する。
例えば、ブラケットのクローズタスクにおいて、トレーニング時に見られるものより10倍長い長さで外挿するなど、EOSは+EOSよりも大幅に優れています。
- 参考スコア(独自算出の注目度): 103.7271774593922
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extrapolation to unseen sequence lengths is a challenge for neural generative
models of language. In this work, we characterize the effect on length
extrapolation of a modeling decision often overlooked: predicting the end of
the generative process through the use of a special end-of-sequence (EOS)
vocabulary item. We study an oracle setting - forcing models to generate to the
correct sequence length at test time - to compare the length-extrapolative
behavior of networks trained to predict EOS (+EOS) with networks not trained to
(-EOS). We find that -EOS substantially outperforms +EOS, for example
extrapolating well to lengths 10 times longer than those seen at training time
in a bracket closing task, as well as achieving a 40% improvement over +EOS in
the difficult SCAN dataset length generalization task. By comparing the hidden
states and dynamics of -EOS and +EOS models, we observe that +EOS models fail
to generalize because they (1) unnecessarily stratify their hidden states by
their linear position is a sequence (structures we call length manifolds) or
(2) get stuck in clusters (which we refer to as length attractors) once the EOS
token is the highest-probability prediction.
- Abstract(参考訳): 未知の配列長への外挿は、言語のニューラル生成モデルの課題である。
本稿では,モデル決定の長大な外挿に対する影響を特徴付け,特殊語句(EOS)を用いて生成過程の終端を予測する。
本研究では,EOS(+EOS)予測のために訓練されたネットワークと,訓練されていないネットワーク(-EOS)の時間外動作を比較するために,テスト時に正しいシーケンス長にモデルを強制するオラクル設定について検討する。
例えば、ブラケットクローズタスクのトレーニング時間で見られるものよりも10倍長大で、複雑なSCANデータセット長一般化タスクでは+EOSよりも40%改善されています。
EOS モデルと +EOS モデルの隠れ状態と力学を比較することで、(1) 線形位置による隠蔽状態の非必要成層化は列(長さ多様体と呼ぶ構造)か、(2) EOS トークンが最大確率予測であるときにクラスター(長さ誘引子と呼ばれる)で立ち往生しているため、+EOS モデルが一般化できないことを観察する。
関連論文リスト
- Dataset Decomposition: Faster LLM Training with Variable Sequence Length Curriculum [30.46329559544246]
本稿では,新しい可変シーケンス長トレーニング手法であるデータセット分解を導入する。
ベースラインアプローチでトレーニングした2kコンテキスト長モデルと同じコストで,8kコンテキスト長1Bモデルをトレーニングする。
ウェブスケールコーパスの実験により,我々の手法は標準言語評価や長文ベンチマークの性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-05-21T22:26:01Z) - Less is More: Mitigating Multimodal Hallucination from an EOS Decision Perspective [55.41815486466186]
大規模なマルチモーダルモデル(LMM)は、視覚的な入力に存在しないコンテンツを生成するため、しばしば多モーダル幻覚に悩まされる。
本稿では,モデルが生成をタイムリーに終了する能力を阻害する,過度に詳細なトレーニングデータについて検討する。
生成したテキストと画像を比較し,シーケンス全体の完全性を評価する。
論文 参考訳(メタデータ) (2024-02-22T13:33:13Z) - Inducing High Energy-Latency of Large Vision-Language Models with Verbose Images [63.91986621008751]
大規模視覚言語モデル(VLM)は、様々なマルチモーダルタスクにおいて例外的な性能を達成している。
本稿では,VLMの推論中に高エネルギー遅延コストを誘導することを目的とする。
本稿では,長い文を生成するためにVLMを誘導するために,知覚不能な摂動を作り出すことを目的とした冗長な画像を提案する。
論文 参考訳(メタデータ) (2024-01-20T08:46:06Z) - DeepSpeed Ulysses: System Optimizations for Enabling Training of Extreme
Long Sequence Transformer Models [34.74093040678323]
我々は,高度に効率的かつスケーラブルなLDMトレーニングを実現するための,新しい,ポータブルで効果的な方法論であるDeepSpeed-Ulyssesを紹介した。
DeepSpeed-Ulyssesは、そのコアでシーケンス次元に沿って入力データを分割し、効率的なオール・ツー・オールの集合通信を用いて注意を払っている。
実験の結果、DeepSpeed-Ulyssesは既存のSOTAベースラインの4倍のシーケンス長で2.5倍高速であることがわかった。
論文 参考訳(メタデータ) (2023-09-25T20:15:57Z) - LongNet: Scaling Transformers to 1,000,000,000 Tokens [146.4077038371075]
LongNetはTransformerの変種で、シーケンス長を10億以上のトークンに拡張できる。
我々の研究は、例えば、コーパス全体やインターネット全体をシーケンスとして扱うなど、非常に長いシーケンスをモデリングする新たな可能性を開く。
論文 参考訳(メタデータ) (2023-07-05T17:59:38Z) - Sequence Length is a Domain: Length-based Overfitting in Transformer
Models [0.0]
機械翻訳において、ニューラルベースシステムは、前回のフレーズベースの翻訳アプローチと比較して非常に長いシーケンスでより良く動作する。
実験結果から, 実験結果から得られた実験結果から, 観測結果の減少は, 入力シーケンスの長さではなく, 学習中のモデルで見られる長さに対応する仮説長が原因であることが示唆された。
論文 参考訳(メタデータ) (2021-09-15T13:25:19Z) - Agile Earth observation satellite scheduling over 20 years:
formulations, methods and future directions [69.47531199609593]
高度姿勢操作能力を持つアジャイル衛星は、新世代の地球観測衛星(EOS)である
衛星技術の継続的な改善と打ち上げコストの削減により、アジャイルEOS(AEOS)の開発が加速した。
論文 参考訳(メタデータ) (2020-03-13T09:38:40Z) - Lipreading using Temporal Convolutional Networks [57.41253104365274]
現在の単語認識モデルは,残差ネットワークと双方向Gated Recurrent Unit層で構成されている。
このモデルの限界に対処し、その性能をさらに向上させる変更を提案する。
提案モデルでは,これらのデータセットにおいてそれぞれ1.2%と3.2%の絶対的な改善が得られた。
論文 参考訳(メタデータ) (2020-01-23T17:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。