論文の概要: Fewer Truncations Improve Language Modeling
- arxiv url: http://arxiv.org/abs/2404.10830v2
- Date: Thu, 2 May 2024 17:10:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-03 21:11:56.977510
- Title: Fewer Truncations Improve Language Modeling
- Title(参考訳): 言語モデリングを改善するローワー・トランケーション
- Authors: Hantian Ding, Zijian Wang, Giovanni Paolini, Varun Kumar, Anoop Deoras, Dan Roth, Stefano Soatto,
- Abstract要約: 大規模な言語モデルトレーニングでは、入力文書は一般的に幻覚化され、同じ長さのシーケンスに分割されて、パディングトークンを避ける。
文書を長さ適応型最適化によってトレーニングシーケンスにまとめる,スケーラブルで効率的な手法であるBest-fit Packingを提案する。
本手法は,連結と同じ訓練効率を維持しつつ,不要な切り離しを完全に除去する。
- 参考スコア(独自算出の注目度): 83.36487756187594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In large language model training, input documents are typically concatenated together and then split into sequences of equal length to avoid padding tokens. Despite its efficiency, the concatenation approach compromises data integrity -- it inevitably breaks many documents into incomplete pieces, leading to excessive truncations that hinder the model from learning to compose logically coherent and factually consistent content that is grounded on the complete context. To address the issue, we propose Best-fit Packing, a scalable and efficient method that packs documents into training sequences through length-aware combinatorial optimization. Our method completely eliminates unnecessary truncations while retaining the same training efficiency as concatenation. Empirical results from both text and code pre-training show that our method achieves superior performance (e.g., relatively +4.7% on reading comprehension; +16.8% in context following; and +9.2% on program synthesis), and reduces closed-domain hallucination effectively by up to 58.3%.
- Abstract(参考訳): 大規模な言語モデルトレーニングでは、入力文書は典型的には結合され、パディングトークンを避けるために等しい長さのシーケンスに分割される。
その効率性にもかかわらず、結合アプローチはデータの整合性を損なう -- 多くのドキュメントを必然的に不完全な部分に分解し、モデルが学習を妨げ、完全なコンテキストに根ざした論理的に一貫性のある、事実的に一貫性のあるコンテンツを構成する。
そこで本研究では,文書を長さを考慮した組合せ最適化によりトレーニングシーケンスにまとめる,スケーラブルで効率的なBest-fit Packingを提案する。
本手法は,連結と同じ訓練効率を維持しつつ,不要な切り離しを完全に除去する。
テキストとコードによる事前学習による実験結果から,本手法は優れた性能(読解理解では+4.7%,文脈順では+16.8%,プログラム合成では+9.2%)を達成し,閉領域幻覚を58.3%まで効果的に減少させることがわかった。
関連論文リスト
- Dataset Decomposition: Faster LLM Training with Variable Sequence Length Curriculum [30.46329559544246]
本稿では,新しい可変シーケンス長トレーニング手法であるデータセット分解を導入する。
ベースラインアプローチでトレーニングした2kコンテキスト長モデルと同じコストで,8kコンテキスト長1Bモデルをトレーニングする。
ウェブスケールコーパスの実験により,我々の手法は標準言語評価や長文ベンチマークの性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-05-21T22:26:01Z) - Constrained Decoding for Code Language Models via Efficient Left and
Right Quotienting of Context-Sensitive Grammars [12.322052060502276]
任意の文脈自由文法の左と右の商に対して作用するアールレー型タスクを開発する。
我々は、多くの共通プログラミング言語の文法に現れるいくつかの文脈依存機能に、インクリメンタル解析と商演算を拡張した。
論文 参考訳(メタデータ) (2024-02-28T02:12:47Z) - Analysing The Impact of Sequence Composition on Language Model
Pre-Training [20.929800523719187]
本研究では,プレトレーニングシーケンス構成戦略がモデルの一般化特性に及ぼす影響について検討する。
因果マスキングを適用することで、事前トレーニング中に以前の文書から注意をそらす情報を含めることができる。
文書内因果マスキングでは、各トークンの確率は、同じ文書内の前のトークンにのみ条件付けられる。
論文 参考訳(メタデータ) (2024-02-21T18:23:16Z) - Summarization-based Data Augmentation for Document Classification [16.49709049899731]
文書分類のための簡易かつ効果的な要約型データ拡張であるSUMMaugを提案する。
まず、対象文書分類タスクの学習が容易な例を示す。
次に、生成された擬似例を用いてカリキュラム学習を行う。
論文 参考訳(メタデータ) (2023-12-01T11:34:37Z) - In-context Pretraining: Language Modeling Beyond Document Boundaries [137.53145699439898]
In-Context Pretrainingは、言語モデルが関連するドキュメントのシーケンスで事前トレーニングされる新しいアプローチである。
本稿では, 近接探索を効率的に行うための近似アルゴリズムを提案する。
より複雑なコンテキスト推論を必要とするタスクの顕著な改善が見られます。
論文 参考訳(メタデータ) (2023-10-16T17:57:12Z) - Copy Is All You Need [66.00852205068327]
既存のテキストコレクションからテキストセグメントを段階的にコピーするテキスト生成を定式化する。
提案手法は, 自動評価と人的評価の両方により, より優れた生成品質を実現する。
当社のアプローチでは,より大規模なテキストコレクションにスケールアップすることで,さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-07-13T05:03:26Z) - CompoundPiece: Evaluating and Improving Decompounding Performance of
Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。
We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。
分割のための専用モデルを訓練するための新しい手法を導入する。
論文 参考訳(メタデータ) (2023-05-23T16:32:27Z) - Revisiting text decomposition methods for NLI-based factuality scoring
of summaries [9.044665059626958]
細粒度分解が必ずしも事実性スコアの勝利戦略であるとは限らないことを示す。
また,従来提案されていたエンテーメントに基づくスコアリング手法の小さな変更により,性能が向上することを示した。
論文 参考訳(メタデータ) (2022-11-30T09:54:37Z) - Conditioned Text Generation with Transfer for Closed-Domain Dialogue
Systems [65.48663492703557]
条件付き変分オートエンコーダを用いて,意図特化文の生成を最適に学習し,制御する方法を示す。
クエリ転送と呼ばれる新しいプロトコルを導入し、大規模で遅延のないデータセットを活用できるようにします。
論文 参考訳(メタデータ) (2020-11-03T14:06:10Z) - Pre-training for Abstractive Document Summarization by Reinstating
Source Text [105.77348528847337]
本稿では,Seq2Seqに基づく非ラベルテキストによる抽象要約モデルの事前学習を可能にする3つの事前学習目標を提案する。
2つのベンチマーク要約データセットの実験では、3つの目的がすべてベースラインでパフォーマンスを向上させることが示されている。
論文 参考訳(メタデータ) (2020-04-04T05:06:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。