論文の概要: Beyond URLs: Metadata Diversity and Position for Efficient LLM Pretraining
- arxiv url: http://arxiv.org/abs/2511.21613v1
- Date: Wed, 26 Nov 2025 17:36:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.227043
- Title: Beyond URLs: Metadata Diversity and Position for Efficient LLM Pretraining
- Title(参考訳): URLを超えて: メタデータの多様性と効率的なLLM事前トレーニングのための位置
- Authors: Dongyang Fan, Diba Hashemi, Sai Praneeth Karimireddy, Martin Jaggi,
- Abstract要約: より広い範囲のメタデータを調査し、文書品質の詳細な指標など他の種類のメタデータを見つける。
トレーニング効率を向上させる手段としてメタデータ付加を導入する。
我々はメタデータがどのように学習を形作るかを理解するために潜在表現を分析する。
- 参考スコア(独自算出の注目度): 45.51273144181658
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Incorporating metadata in Large Language Models (LLMs) pretraining has recently emerged as a promising approach to accelerate training. However prior work highlighted only one useful signal-URLs, leaving open the question of whether other forms of metadata could yield greater benefits. In this study, we investigate a wider range of metadata types and find other types of metadata, such as fine-grained indicators of document quality that can also accelerate pretraining when prepended. We identify a common feature among effective metadata: they encode information at a finer granularity. We further introduce metadata appending as a means of improving training efficiency, where predicting an appropriate metadata as auxiliary task can help speed up pretraining. In addition, learnable meta-tokens trained with masked loss can recover part of the speedup by inducing quality-aware latent structure. Using probing, we analyze latent representations to understand how metadata shapes learning. Together, these results yield practical guidelines for integrating metadata to improve both the efficiency and effectiveness of LLM pretraining.
- Abstract(参考訳): 大規模言語モデル(LLM)の事前トレーニングにメタデータを組み込むことは、トレーニングを加速するための有望なアプローチとして最近登場した。
しかしながら、以前の作業では、1つの有用なシグナルURLのみを強調し、他の形式のメタデータがより大きなメリットをもたらすかどうかという疑問を開き放った。
本研究では,より広い範囲のメタデータを調査し,事前学習を促進できる文書品質のきめ細かい指標など,他の種類のメタデータを探索する。
有効なメタデータの中で共通の特徴を識別し、より細かい粒度で情報をエンコードする。
さらに、トレーニング効率を向上させる手段としてメタデータ追加を導入し、適切なメタデータを補助タスクとして予測することで、事前学習のスピードアップに役立てる。
さらに、マスク付き損失で訓練された学習可能なメタトークンは、品質に配慮した潜伏構造を誘導することにより、スピードアップの一部を回復することができる。
探索を用いて、メタデータがどのように学習を形作るかを理解するために潜在表現を分析する。
これらの結果から,LCMプレトレーニングの効率化と有効性を向上させるため,メタデータの統合のための実践的ガイドラインが得られた。
関連論文リスト
- URLs Help, Topics Guide: Understanding Metadata Utility in LLM Training [33.68104398807581]
URLコンテキストだけがトレーニングをスピードアップするのに対して、品質スコアとトピック/フォーマットのドメイン情報は明確なメリットを提供していません。
トピックやフォーマットのメタデータはトレーニングを加速しませんが、アウトプットのステアリングには有効です。
論文 参考訳(メタデータ) (2025-05-22T12:01:20Z) - FREE: Faster and Better Data-Free Meta-Learning [77.90126669914324]
Data-Free Meta-Learning (DFML) は、トレーニング済みモデルのコレクションから、元のデータを必要としない知識を抽出することを目的としている。
i)事前訓練されたモデルからトレーニングタスクを迅速に回復するためのメタジェネレータ,(ii)新しい未知のタスクに一般化するためのメタラーナーを含む、より高速で優れたデータフリーなメタラーニングフレームワークを紹介する。
論文 参考訳(メタデータ) (2024-05-02T03:43:19Z) - Architecture, Dataset and Model-Scale Agnostic Data-free Meta-Learning [117.48444197402858]
データフリーメタトレーニングにおけるePisode cUrriculum inversion(ECI)と、内部ループ後のinvErsion calibRation(ICFIL)を提案する。
ECIは、メタモデルのリアルタイムフィードバックに応じて、擬似エピソードの難易度を適応的に増加させる。
本稿では,ECIを用いたメタトレーニングの最適化過程を,エンド・ツー・エンド方式で近似形式として定式化する。
論文 参考訳(メタデータ) (2023-03-20T15:10:41Z) - Incremental Meta-Learning via Indirect Discriminant Alignment [118.61152684795178]
メタ学習のメタ学習段階において,段階的な学習の概念を発達させる。
我々のアプローチは、完全なメタトレーニングセットでモデルをトレーニングするのと比べて、テスト時に好適に機能する。
論文 参考訳(メタデータ) (2020-02-11T01:39:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。