論文の概要: What is the Best Sequence Length for BABYLM?
- arxiv url: http://arxiv.org/abs/2510.19493v1
- Date: Wed, 22 Oct 2025 11:42:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.74461
- Title: What is the Best Sequence Length for BABYLM?
- Title(参考訳): BABYLMに最適なシーケンス長は何か?
- Authors: Suchir Salhan, Richard Diehl Martinez, Zébulon Goriely, Paula Buttery,
- Abstract要約: 本研究では,BabyLMプレトレーニングにおけるシーケンス長の影響について検討した。
長い方が良いことが多いが、最適な長さはタスクとアーキテクチャの両方に依存する。
より短い列は文法的な一般化タスクには十分であるが、より長い文脈は形態学的類推タスクに有利である。
- 参考スコア(独自算出の注目度): 2.880221622990856
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer language models typically operate with a fixed-length context window, which has grown in step with large-scale pretraining datasets. In the BabyLM Challenge, however, many past submissions have defaulted to using much shorter sequence lengths. We examine the impact of sequence length on BabyLM pretraining, to answer the simple question: what sequence length should we be using when training Baby LMs? Using 100M-word training data and fixed compute budgets, we compare 125M-parameter Mamba and OPT models, finding that although longer is often better, the optimal length depends on both task and architecture. Shorter sequences are sufficient for grammatical generalization tasks whereas longer contexts benefit morphological analogical reasoning tasks.
- Abstract(参考訳): トランスフォーマー言語モデルは一般的に、大規模な事前トレーニングデータセットで段階的に成長した固定長コンテキストウィンドウで機能する。
しかしながら、BabyLM Challengeでは、多くの過去の投稿が、より短いシーケンス長を使用するようにデフォルト化されている。
Baby LMのトレーニングにおいて、シーケンス長がBaby LMプリトレーニングに与える影響について検討し、簡単な質問に答える。
100Mワードのトレーニングデータと固定計算予算を用いて125MパラメータのMambaとOPTのモデルを比較したところ、長い方が良い場合が多いが、最適長はタスクとアーキテクチャの両方に依存することがわかった。
より短い列は文法的な一般化タスクには十分であるが、より長い文脈は形態学的類推タスクに有利である。
関連論文リスト
- ETT: Expanding the Long Context Understanding Capability of LLMs at Test-Time [4.737679362712655]
ourmodelacronym(Extend at Test-Time)は、短いコンテキストのコンテクスト長を変換子ベースの言語モデルに拡張する手法である。
GPT-LargeとPhi-2のコンテキスト長を32倍に拡張し,LongBench上のETTを評価する。
論文 参考訳(メタデータ) (2025-07-08T18:06:45Z) - Dataset Decomposition: Faster LLM Training with Variable Sequence Length Curriculum [30.46329559544246]
大規模言語モデル(LLM)は、固定長トークンシーケンスからなるデータセットで一般的に訓練される。
最近の注目実装では、クロスドキュメントの注意を隠蔽し、トークンの塊の有効長を削減している。
本稿では,新しい可変シーケンス長トレーニング手法であるデータセット分解を導入する。
論文 参考訳(メタデータ) (2024-05-21T22:26:01Z) - LongAlign: A Recipe for Long Context Alignment of Large Language Models [61.85923382850057]
LongAlignは、ロングコンテキストアライメントのための命令データ、トレーニング、評価のレシピである。
我々はSelf-Instructを使って長い命令追従データセットを構築した。
我々は、長さ分布の異なるデータの教師付き微調整を高速化するために、パッキングとソート戦略を採用した。
論文 参考訳(メタデータ) (2024-01-31T18:29:39Z) - E^2-LLM: Efficient and Extreme Length Extension of Large Language Models [74.1254067728251]
本稿では,E2-LLMと呼ばれる大規模言語モデルに対して,1つの訓練手順と劇的にコストを削減した効率的な拡張手法を提案する。
複数のベンチマークデータセットに対する総合的な実験結果から,E2-LLMが長文課題に対する有効性を示した。
論文 参考訳(メタデータ) (2024-01-13T02:11:20Z) - Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。
我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文 参考訳(メタデータ) (2023-09-27T21:41:49Z) - Sequence Length is a Domain: Length-based Overfitting in Transformer
Models [0.0]
機械翻訳において、ニューラルベースシステムは、前回のフレーズベースの翻訳アプローチと比較して非常に長いシーケンスでより良く動作する。
実験結果から, 実験結果から得られた実験結果から, 観測結果の減少は, 入力シーケンスの長さではなく, 学習中のモデルで見られる長さに対応する仮説長が原因であることが示唆された。
論文 参考訳(メタデータ) (2021-09-15T13:25:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。