Fugu-MT 論文翻訳(概要): TiC-LM: A Web-Scale Benchmark for Time-Continual LLM Pretraining

論文の概要: TiC-LM: A Web-Scale Benchmark for Time-Continual LLM Pretraining

arxiv url: http://arxiv.org/abs/2504.02107v1
Date: Wed, 02 Apr 2025 20:11:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-12 00:38:25.963613
Title: TiC-LM: A Web-Scale Benchmark for Time-Continual LLM Pretraining
Title（参考訳）: TiC-LM: 時間連続LLM事前トレーニングのためのWebスケールベンチマーク
Authors: Jeffrey Li, Mohammadreza Armandpour, Iman Mirzadeh, Sachin Mehta, Vaishaal Shankar, Raviteja Vemulapalli, Samy Bengio, Oncel Tuzel, Mehrdad Farajtabar, Hadi Pouransari, Fartash Faghri,
Abstract要約: 歴史的Webデータに基づいてトレーニングされた大規模言語モデル(LLM)は、必然的に時代遅れになる。 114ダンプのCommon Crawl(CC)から得られたLCMの時間-連続事前学習のためのWebスケールデータセットを提案する。また、一般CCデータと特定ドメインの両方にわたって時間階層評価を設計する。
参考スコア（独自算出の注目度）: 41.629324249810054
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) trained on historical web data inevitably become outdated. We investigate evaluation strategies and update methods for LLMs as new data becomes available. We introduce a web-scale dataset for time-continual pretraining of LLMs derived from 114 dumps of Common Crawl (CC) - orders of magnitude larger than previous continual language modeling benchmarks. We also design time-stratified evaluations across both general CC data and specific domains (Wikipedia, StackExchange, and code documentation) to assess how well various continual learning methods adapt to new data while retaining past knowledge. Our findings demonstrate that, on general CC data, autoregressive meta-schedules combined with a fixed-ratio replay of older data can achieve comparable held-out loss to re-training from scratch, while requiring significantly less computation (2.6x). However, the optimal balance between incorporating new data and replaying old data differs as replay is crucial to avoid forgetting on generic web data but less so on specific domains.
Abstract（参考訳）: 歴史的Webデータに基づいてトレーニングされた大規模言語モデル(LLM)は、必然的に時代遅れになる。新たなデータが利用可能になるとLCMの評価方略と更新方法を検討する。本稿では,114ダンプのCommon Crawl (CC)から派生したLLMの時間-連続事前学習のためのWebスケールデータセットについて紹介する。また、一般的なCCデータと特定のドメイン(Wikipedia、StackExchange、コードドキュメント)をまたいだ時間的階層化評価を設計し、過去の知識を維持しながら、様々な連続学習手法が新しいデータにどの程度うまく適応するかを評価する。以上の結果から, 一般CCデータでは, 自己回帰的メタスケジュールと古いデータの固定比率のリプレイを組み合わせることで, ゼロからの再トレーニングに匹敵する保持的損失を達成でき, 計算量も大幅に少ない(2.6倍)。しかし、新しいデータの導入と古いデータの再再生の最適バランスは、一般的なWebデータを忘れないようにするためには、リプレイが不可欠であるが、特定のドメインではそうではないため、異なる。

関連論文リスト

Can LLM Annotations Replace User Clicks for Learning to Rank? [112.2254432364736]
大規模な教師付きデータは最新のランキングモデルのトレーニングには不可欠だが、高品質な人的アノテーションの取得にはコストがかかる。クリックデータは低コストの代替手段として広く使われており、近年の大規模言語モデル(LLM)の発展に伴い、LLMベースの関連アノテーションも有望なアノテーションとして登場した。公開データセットであるTianGong-STと、産業データセットであるBaidu-Clickの両方の実験は、クリック管理モデルが高周波クエリでより良いパフォーマンスを示すことを示している。データスケジューリングと周波数対応多目的学習という2つのトレーニング戦略を検討し、両方の監視信号を統合する。
論文参考訳（メタデータ） (2025-11-10T02:26:14Z)
Revisiting Replay and Gradient Alignment for Continual Pre-Training of Large Language Models [19.136589266017694]
大規模言語モデルのトレーニングは通常、大量のコーパスで事前トレーニングを行う。新しいデータは、しばしば分散シフトを引き起こし、以前に学習したタスクのパフォーマンスが低下する。この分散シフトに対処するための2つの一般的な提案、すなわちエクスペリエンスのリプレイとアライメントアライメントについて、より深く検討する。
論文参考訳（メタデータ） (2025-08-03T20:07:15Z)
Does Prior Data Matter? Exploring Joint Training in the Context of Few-Shot Class-Incremental Learning [9.682677147166391]
CIL(Class-incremental Learning)は,学習前の知識を維持しつつ,新たなクラスに継続的に適応することを目的としている。 FSCIL(Few-shot class-incremental Learning)は、クラス毎に限られたサンプル数から新しいクラスを学習するモデルを必要とする、より大きな課題を示す。
論文参考訳（メタデータ） (2025-03-13T03:25:29Z)
Large Language Models are Few-shot Multivariate Time Series Classifiers [23.045734479292356]
大規模言語モデル (LLM) は時系列解析に広く応用されている。しかし、数発の分類(すなわち重要な訓練シナリオ)におけるそれらの実用性は過小評価されている。データ不足を克服するために,LLMの学習済み知識を幅広く活用することを目的としている。
論文参考訳（メタデータ） (2025-01-30T03:59:59Z)
Formality is Favored: Unraveling the Learning Preferences of Large Language Models on Data with Conflicting Knowledge [55.65162959527848]
大規模言語モデルは、多くの知識集約的なタスクにおいて優れたパフォーマンスを示している。しかし、事前学習データには誤解を招く傾向があり、矛盾する情報も含まれている。本研究では,LLMの学習嗜好を,矛盾する知識を持つデータに対して体系的に分析する。
論文参考訳（メタデータ） (2024-10-07T06:49:41Z)
Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
Learn-Focus-Review(LFR)は、モデルの学習進捗に適応する動的トレーニングアプローチである。 LFRは、データブロック(トークンのシーケンス)にわたるモデルの学習パフォーマンスを追跡し、データセットの困難な領域を再検討する。フルデータセットでトレーニングされたベースラインモデルと比較して、LFRは一貫して低いパープレキシティと高い精度を達成した。
論文参考訳（メタデータ） (2024-09-10T00:59:18Z)
Improving Pretraining Data Using Perplexity Correlations [56.41097718862742]
我々は,LLM学習を必要とせず,高品質な事前学習データを選択するフレームワークを提案する。我々は,パープレキシティ-ベンチマーク相関の推定を中心に,データ選択のための新しい統計フレームワークを構築した。提案手法は,DataComp-LMで見つかった最高のデータセレクタをマッチングしながら,各ベンチマークでDSIRより優れている。
論文参考訳（メタデータ） (2024-09-09T17:23:29Z)
Simple and Scalable Strategies to Continually Pre-train Large Language Models [20.643648785602462]
大規模言語モデル(LLM)は、数十億のトークンで定期的に事前訓練されるが、新しいデータが利用可能になると、プロセスを再開する。学習率のリウォーミング、LR再計算、過去のデータのリプレイをシンプルかつスケーラブルに組み合わせることで、スクラッチから完全に再学習する性能に匹敵することを示す。
論文参考訳（メタデータ） (2024-03-13T17:58:57Z)
Enhancing Consistency and Mitigating Bias: A Data Replay Approach for Incremental Learning [93.90047628101155]
ディープラーニングシステムは、一連のタスクから学ぶとき、破滅的な忘れがちだ。これを解決するために、新しいタスク学習中に過去のタスクからのデータを再生する手法を提案する。しかし、メモリの制約やデータプライバシーの問題により、実際には期待できない。
論文参考訳（メタデータ） (2024-01-12T12:51:12Z)
Data Contamination Through the Lens of Time [21.933771085956426]
大規模言語モデル(LLM)は一般に利用可能なベンチマークを評価することでしばしばサポートされる。このプラクティスは、データ汚染の懸念、すなわち、トレーニングデータに明示的にまたは暗黙的に含まれている例を評価することを提起する。 GPTモデルにおけるトレーニングカットオフの自然実験を用いて, LLMにおけるデータ汚染の経時的解析を行った。
論文参考訳（メタデータ） (2023-10-16T17:51:29Z)
When Less is More: Investigating Data Pruning for Pretraining LLMs at Scale [12.94829977468838]
大量のテキストデータが大きな言語モデルの開発に大きく貢献している。これまで、データセットを高品質なサブセットまで掘り下げる努力は、ルールベースのフィルタとしてエンコードされた手作りのものに依存してきた。より広い視点で、事前学習データの品質を測定するために使用できる、スケーラブルなデータ品質の推定を探求します。
論文参考訳（メタデータ） (2023-09-08T19:34:05Z)
Don't Memorize; Mimic The Past: Federated Class Incremental Learning Without Episodic Memory [36.4406505365313]
本稿では,過去のデータの一部を格納するのではなく,生成モデルを用いて過去の分布からサンプルを合成する,連邦化クラスインクリメンタルラーニングのためのフレームワークを提案する。生成モデルは、クライアントからデータを要求することなく、各タスクの最後にデータフリーのメソッドを使用してサーバ上でトレーニングされる。
論文参考訳（メタデータ） (2023-07-02T07:06:45Z)
To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文参考訳（メタデータ） (2023-05-22T17:02:15Z)
On the Costs and Benefits of Adopting Lifelong Learning for Software Analytics -- Empirical Study on Brown Build and Risk Prediction [17.502553991799832]
本稿では,ユビソフトにおける産業用ユースケースにおける生涯学習(LL)の利用について検討する。 LLは、新しいデータを使用して古いモデルを段階的に更新するインクリメンタルラーナを使用して、MLベースのソフトウェア分析ツールを継続的に構築し、メンテナンスするために使用される。
論文参考訳（メタデータ） (2023-05-16T21:57:16Z)
Improving information retention in large scale online continual learning [99.73847522194549]
オンライン連続学習は、既存の知識を維持しながら、新しいデータに効率的に適応することを目的としている。最近の研究は、リプレイバッファが無制限であっても、大規模なOCLでは情報保持が問題であり続けていることを示唆している。非定常目標に対する最適化を改善するため,移動平均の手法群を提案する。
論文参考訳（メタデータ） (2022-10-12T16:59:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。