論文の概要: LIME: Making LLM Data More Efficient with Linguistic Metadata Embeddings
- arxiv url: http://arxiv.org/abs/2512.07522v1
- Date: Mon, 08 Dec 2025 12:59:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.894619
- Title: LIME: Making LLM Data More Efficient with Linguistic Metadata Embeddings
- Title(参考訳): LIME:LLMデータを言語メタデータの埋め込みでより効率的にする
- Authors: Sebastian Sztwiertnia, Felix Friedrich, Kristian Kersting, Patrick Schramowski, Björn Deiseroth,
- Abstract要約: LIME(Linguistic Metadata Embeddings)は,メタデータのメタデータを付加したトークンの埋め込みを,構文,セマンティクス,コンテキストプロパティなどによって強化する手法である。
LIMEはトレーニング前の効率を大幅に改善する。具体的には、トレーニングデータ分布に最大56%高速に対応し、無視可能な計算オーバーヘッドでは0.01%追加パラメータしか導入しない。
さらに,トークン生成をガイドできるメタデータシフト型 LIME+1 を開発した。
- 参考スコア(独自算出の注目度): 44.57551925823648
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Pre-training decoder-only language models relies on vast amounts of high-quality data, yet the availability of such data is increasingly reaching its limits. While metadata is commonly used to create and curate these datasets, its potential as a direct training signal remains under-explored. We challenge this status quo and propose LIME (Linguistic Metadata Embeddings), a method that enriches token embeddings with metadata capturing syntax, semantics, and contextual properties. LIME substantially improves pre-training efficiency. Specifically, it adapts up to 56% faster to the training data distribution, while introducing only 0.01% additional parameters at negligible compute overhead. Beyond efficiency, LIME improves tokenization, leading to remarkably stronger language modeling capabilities and generative task performance. These benefits persist across model scales (500M to 2B). In addition, we develop a variant with shifted metadata, LIME+1, that can guide token generation. Given prior metadata for the next token, LIME+1 improves reasoning performance by up to 38% and arithmetic accuracy by up to 35%.
- Abstract(参考訳): 事前トレーニングされたデコーダのみの言語モデルは、大量の高品質なデータに依存している。
メタデータは一般的にこれらのデータセットの作成とキュレーションに使用されるが、直接的なトレーニング信号としての可能性はまだ探索されていない。
我々は,この現状に挑戦し,LIME(Linguistic Metadata Embeddings)を提案する。
LIMEはトレーニング前の効率を大幅に改善する。
具体的には、トレーニングデータ分散に最大56%高速に対応し、無視可能な計算オーバーヘッドで0.01%追加パラメータを導入する。
効率性以外にも、LIMEはトークン化を改善し、言語モデリング機能と生成タスクのパフォーマンスを大幅に向上させる。
これらのメリットは、モデルスケール(5Mから2B)にわたって持続します。
さらに,トークン生成をガイドできるメタデータシフト型 LIME+1 を開発した。
次のトークンの以前のメタデータを考えると、LIME+1は推論性能を最大38%改善し、算術的精度を最大35%向上する。
関連論文リスト
- Beyond URLs: Metadata Diversity and Position for Efficient LLM Pretraining [45.51273144181658]
より広い範囲のメタデータを調査し、文書品質の詳細な指標など他の種類のメタデータを見つける。
トレーニング効率を向上させる手段としてメタデータ付加を導入する。
我々はメタデータがどのように学習を形作るかを理解するために潜在表現を分析する。
論文 参考訳(メタデータ) (2025-11-26T17:36:31Z) - Reusing Pre-Training Data at Test Time is a Compute Multiplier [35.81885343245217]
事前トレーニングのプロセスによって、データセットの値がどれだけ残されていたか、定量化します。
我々は、事前トレーニングを行い、標準および主にオープンソースデータセットから検索すると、精度が大幅に向上することを示した。
これらの結果は、検索したコンテキストを解析するために、テスト時に追加の計算を活用することでさらに改善される。
論文 参考訳(メタデータ) (2025-11-06T10:10:43Z) - Thinking Augmented Pre-training [88.04395622064708]
拡張事前学習は、自動生成された思考軌跡でテキストを増強する普遍的な方法論である。
本稿では,既存のテキストデータを思考トラジェクトリで拡張することにより,大規模言語モデル(LLM)トレーニングのデータ効率を向上させるための,シンプルでスケーラブルなアプローチを提案する。
論文 参考訳(メタデータ) (2025-09-24T14:45:13Z) - MASS: Mathematical Data Selection via Skill Graphs for Pretraining Large Language Models [44.458342094004024]
大規模言語モデル(LLM)の事前学習と微調整において高品質なデータが重要な役割を果たす
我々は,textbfSkill グラフを用いて LLM の事前学習を行う textbfMAthematical data textbfSelection フレームワークである MASS を紹介する。
実験により, 異なるモデルサイズにおけるMASSの有効性と有効性を示した。
論文 参考訳(メタデータ) (2025-03-19T05:50:21Z) - Metadata Conditioning Accelerates Language Model Pre-training [76.54265482251454]
そこで本研究では,Metadata Conditioning then Cooldown (MeCo) と呼ばれる新しい手法を提案する。
MeCoは、さまざまなモデルスケール(600Mから8Bパラメータ)とトレーニングソース(C4、RefinedWeb、DCLM)の事前トレーニングを著しく加速する
MeCoは驚くほどシンプルで、計算オーバーヘッドを追加せず、より有能でステアブルな言語モデルを生成するという約束を示す。
論文 参考訳(メタデータ) (2025-01-03T18:59:23Z) - What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - Investigating Pre-trained Language Models on Cross-Domain Datasets, a
Step Closer to General AI [0.8889304968879164]
本研究では、事前学習された言語モデルが、異なる非言語タスクに一般化する能力について検討する。
私たちが使用した4つの事前訓練モデル、T5、BART、BERT、GPT-2は優れた結果を得た。
論文 参考訳(メタデータ) (2023-06-21T11:55:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。