論文の概要: URLs Help, Topics Guide: Understanding Metadata Utility in LLM Training
- arxiv url: http://arxiv.org/abs/2505.16570v1
- Date: Thu, 22 May 2025 12:01:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.268053
- Title: URLs Help, Topics Guide: Understanding Metadata Utility in LLM Training
- Title(参考訳): URLヘルプ、トピックガイド:LLMトレーニングにおけるメタデータユーティリティ理解
- Authors: Dongyang Fan, Vinko Sabolčec, Martin Jaggi,
- Abstract要約: URLコンテキストだけがトレーニングをスピードアップするのに対して、品質スコアとトピック/フォーマットのドメイン情報は明確なメリットを提供していません。
トピックやフォーマットのメタデータはトレーニングを加速しませんが、アウトプットのステアリングには有効です。
- 参考スコア(独自算出の注目度): 33.68104398807581
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are commonly pretrained on vast corpora of text without utilizing contextual metadata such as source, quality, or topic, leading to a context-free learning paradigm. While recent studies suggest that adding metadata like URL information as context (i.e., auxiliary inputs not used in the loss calculation) can improve training efficiency and downstream performance, they offer limited understanding of which types of metadata are truly effective and under what conditions. In this work, we conduct a systematic evaluation and find that not all metadata types contribute equally. Only URL context speeds up training, whereas quality scores and topic/format domain information offer no clear benefit. Furthermore, the improved downstream performances of URL conditioning emerge only when longer prompts are used at inference time. In addition, we demonstrate that context-aware pretraining enables more controllable generation than context-free pretraining, in a classifier-free guidance fashion. Although topic and format metadata do not accelerate training, they are effective for steering outputs, offering human-interpretable control over generation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ソース、品質、トピックといったコンテキストメタデータを使わずに、大量のテキストコーパスで事前訓練される。
最近の研究では、URL情報などのメタデータをコンテキストとして追加することで(損失計算に使用されていない補助的な入力)、トレーニング効率と下流のパフォーマンスを向上させることが示唆されているが、どのメタデータが真に効果的でどの条件下にあるかは限定的に理解されている。
本研究では、体系的な評価を行い、全てのメタデータタイプが等しく寄与するわけではないことを確認する。
URLコンテキストだけがトレーニングをスピードアップしますが、品質スコアとトピック/フォーマットのドメイン情報は明確なメリットを提供していません。
さらに、URLコンディショニングのダウンストリームパフォーマンスが改善されたのは、推論時により長いプロンプトが使用される場合のみである。
さらに,文脈認識による事前学習が,文脈自由な事前学習よりも制御可能な生成を可能にすることを示す。
トピックやフォーマットのメタデータはトレーニングを加速しませんが、アウトプットのステアリングには有効です。
関連論文リスト
- When Does Metadata Conditioning (NOT) Work for Language Model Pre-Training? A Study with Context-Free Grammars [34.80529788630565]
潜在意味論は、言語モデルのパフォーマンスを決定する重要な特性の1つです。
この機能を呼び出すための便利なアプローチの1つは、事前トレーニングデータのテキストの開始時にメタデータをプリペンドすることである。
メタデータを用いたトレーニングは、与えられたコンテキストが遅延セマンティクスを推測するのに十分な時間である場合に、モデルの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2025-04-24T13:56:43Z) - Metadata Conditioning Accelerates Language Model Pre-training [76.54265482251454]
そこで本研究では,Metadata Conditioning then Cooldown (MeCo) と呼ばれる新しい手法を提案する。
MeCoは、さまざまなモデルスケール(600Mから8Bパラメータ)とトレーニングソース(C4、RefinedWeb、DCLM)の事前トレーニングを著しく加速する
MeCoは驚くほどシンプルで、計算オーバーヘッドを追加せず、より有能でステアブルな言語モデルを生成するという約束を示す。
論文 参考訳(メタデータ) (2025-01-03T18:59:23Z) - On the Loss of Context-awareness in General Instruction Fine-tuning [101.03941308894191]
教師付き微調整後の文脈認識の喪失について検討した。
性能低下は,会話指導の微調整中に学んだ異なる役割に対する偏見と関連していることがわかった。
一般命令微調整データセットから文脈依存例を識別する指標を提案する。
論文 参考訳(メタデータ) (2024-11-05T00:16:01Z) - Maintaining Informative Coherence: Migrating Hallucinations in Large Language Models via Absorbing Markov Chains [6.920249042435973]
大規模言語モデル(LLM)は、テキスト生成、翻訳、要約のための強力なツールである。
LLMは、文脈情報の忠実さとコヒーレンスを維持するのに失敗する幻覚症状に悩まされることが多い。
本稿では,マルコフ連鎖を吸収し,文脈情報の重要性を定量化する新しい復号手法を提案する。
論文 参考訳(メタデータ) (2024-10-27T04:51:18Z) - CorDA: Context-Oriented Decomposition Adaptation of Large Language Models for Task-Aware Parameter-Efficient Fine-tuning [101.81127587760831]
現在の微調整手法は、学習すべき下流タスクのコンテキストや、維持すべき重要な知識のコンテキストに広く適用できるアダプタを構築している。
学習可能なタスク対応アダプタを構築するコンテキスト指向の分解適応手法であるCorDAを提案する。
本手法は,知識保存型適応と指導レビュー型適応の2つの選択肢を実現する。
論文 参考訳(メタデータ) (2024-06-07T19:10:35Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - How does a Pre-Trained Transformer Integrate Contextual Keywords?
Application to Humanitarian Computing [0.0]
本稿では,各ツイートに危機イベントタイプを追加して人道的分類タスクを改善する方法について述べる。
これは、提案されたニューラルネットワークアプローチが、Crisis Benchmarkの特殊性を部分的に過度に適合しているかを示している。
論文 参考訳(メタデータ) (2021-11-07T11:24:08Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。