論文の概要: Extending Input Contexts of Language Models through Training on Segmented Sequences
- arxiv url: http://arxiv.org/abs/2310.14633v3
- Date: Wed, 19 Jun 2024 14:00:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-22 06:27:34.415229
- Title: Extending Input Contexts of Language Models through Training on Segmented Sequences
- Title(参考訳): セグメンテッドシーケンスの学習による言語モデルの入力コンテキストの拡張
- Authors: Petros Karypis, Julian McAuley, George Karypis,
- Abstract要約: 本研究では,事前学習したモデルの入力コンテキストサイズをアーキテクチャ変更なしに拡張する訓練手法を開発した。
提案手法は,パープレキシティを改善しつつ,入力コンテキストを4倍に拡張できることを実証する。
- 参考スコア(独自算出の注目度): 34.42433279419559
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effectively training language models on long inputs poses many technical challenges. As a cost consideration, languages models are pretrained on a fixed sequence length before being adapted to longer sequences. We explore various methods for adapting models to longer inputs by training on segmented sequences and an interpolation-based method for extending absolute positional embeddings. We develop a training procedure to extend the input context size of pretrained models with no architectural changes and no additional memory costs than training on the original input lengths. By sub-sampling segments from long inputs while maintaining their original position the model is able to learn new positional interactions. Our method benefits both models trained with absolute positional embeddings, by extending their input contexts, as well as popular relative positional embedding methods showing a reduced perplexity on sequences longer than they were trained on. We demonstrate our method can extend input contexts by a factor of 4x while improving perplexity.
- Abstract(参考訳): 長い入力で言語モデルを効果的に訓練することは、多くの技術的な課題をもたらす。
コストを考慮すると、言語モデルはより長いシーケンスに適応する前に、一定のシーケンス長で事前訓練される。
そこで本研究では,セグメント化シーケンスをトレーニングすることで,より長い入力にモデルを適応させる様々な手法と,絶対的な位置埋め込みを拡張可能な補間法について検討する。
我々は,事前学習したモデルの入力コンテキストサイズを,アーキテクチャ上の変更やメモリコストを伴わずに拡張する訓練手法を開発した。
長い入力からセグメントをサブサンプリングすることで、モデルは元の位置を維持しながら新しい位置の相互作用を学ぶことができる。
提案手法は,入力コンテキストを拡張して絶対的な位置埋め込みを訓練したモデルと,トレーニング対象よりも長いシーケンスのパープレキシティの低下を示す一般的な相対的な位置埋め込み手法の両方に有効である。
提案手法は,パープレキシティを改善しつつ,入力コンテキストを4倍に拡張できることを実証する。
関連論文リスト
- Dataset Decomposition: Faster LLM Training with Variable Sequence Length Curriculum [30.46329559544246]
本稿では,新しい可変シーケンス長トレーニング手法であるデータセット分解を導入する。
ベースラインアプローチでトレーニングした2kコンテキスト長モデルと同じコストで,8kコンテキスト長1Bモデルをトレーニングする。
ウェブスケールコーパスの実験により,我々の手法は標準言語評価や長文ベンチマークの性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-05-21T22:26:01Z) - TAMS: Translation-Assisted Morphological Segmentation [3.666125285899499]
正準形態素セグメンテーションのためのシーケンス・ツー・シーケンスモデルを提案する。
我々のモデルは、超低リソース設定においてベースラインよりも優れるが、トレーニング分割とより多くのデータとの混合結果が得られる。
高いリソース設定で翻訳を便利にするためには、さらなる作業が必要であるが、我々のモデルは、リソース制約の厳しい設定で、約束を示す。
論文 参考訳(メタデータ) (2024-03-21T21:23:35Z) - Text-to-Code Generation with Modality-relative Pre-training [6.546893206010636]
シーケンストークンがどのモダリティに属するかによってどのように適応できるかを検討する。
2つのバックボーンモデルと2つのテストセットにまたがる一貫した改善を観察する。
論文 参考訳(メタデータ) (2024-02-08T16:17:24Z) - A Frustratingly Easy Improvement for Position Embeddings via Random
Padding [68.75670223005716]
本稿では,既存の事前学習型言語モデルを変更することなく,シンプルかつ効果的なランダムパディング手法を提案する。
実験により、ランダムパディングは、応答が後位置にあるインスタンスのモデル性能を著しく改善できることが示された。
論文 参考訳(メタデータ) (2023-05-08T17:08:14Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Token-wise Curriculum Learning for Neural Machine Translation [94.93133801641707]
ニューラルネットワーク翻訳(NMT)への既存のカリキュラム学習アプローチでは、初期のトレーニング段階でトレーニングデータから十分なサンプルをサンプリングする必要がある。
簡便なサンプルを十分に生成する,新しいトークン型カリキュラム学習手法を提案する。
当社のアプローチは,5つの言語ペア,特に低リソース言語において,ベースラインを一貫して上回ることができる。
論文 参考訳(メタデータ) (2021-03-20T03:57:59Z) - Active Learning for Sequence Tagging with Deep Pre-trained Models and
Bayesian Uncertainty Estimates [52.164757178369804]
自然言語処理のためのトランスファーラーニングとアクティブラーニングの最近の進歩は、必要なアノテーション予算を大幅に削減する可能性を開く。
我々は,様々なベイズ不確実性推定手法とモンテカルロドロップアウトオプションの実験的研究を,アクティブ学習フレームワークで実施する。
また, 能動学習中にインスタンスを取得するためには, 完全サイズのトランスフォーマーを蒸留版に置き換えることにより, 計算性能が向上することを示した。
論文 参考訳(メタデータ) (2021-01-20T13:59:25Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。