Fugu-MT 論文翻訳(概要): The interplay between domain specialization and model size: a case study in the legal domain

論文の概要: The interplay between domain specialization and model size: a case study in the legal domain

arxiv url: http://arxiv.org/abs/2501.02068v1
Date: Fri, 03 Jan 2025 19:28:53 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-07 16:36:50.693483
Title: The interplay between domain specialization and model size: a case study in the legal domain
Title（参考訳）: ドメイン特殊化とモデルサイズとの相互作用--法領域におけるケーススタディ
Authors: Roseval Malaquias Junior, Ramon Pires, Thales Sales Almeida, Kenzo Sakiyama, Roseli Romero, Rodrigo Nogueira,
Abstract要約: 計算制約シナリオ下での連続事前学習におけるドメインサイズとモデルサイズ間の相互作用について検討する。私たちのゴールは、このシナリオの計算効率のよいトレーニング体制を特定することです。モデルのサイズが大きくなると、特殊モデルと一般モデルの間の計算効率のギャップが広がる。
参考スコア（独自算出の注目度）: 8.653321928148547
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Scaling laws for language models so far focused on finding the compute-optimal model size and token count for training from scratch. However, achieving this optimal balance requires significant compute resources due to the extensive data demands when training models from randomly-initialized weights. Continual pre-training offers a cost-effective alternative, leveraging the compute investment from pre-trained models to incorporate new knowledge without requiring extensive new data. Recent findings suggest that data quality influences constants in scaling laws, thereby altering the optimal parameter-token allocation ratio. Building on this insight, we investigate the interplay between domain specialization and model size during continual pre-training under compute-constrained scenarios. Our goal is to identify a compute-efficient training regime for this scenario and, potentially, detect patterns in this interplay that can be generalized across different model sizes and domains. To compare general and specialized training, we filtered a web-based dataset to extract legal domain data. We pre-trained models with 1.5B, 3B, 7B and 14B parameters on both the unfiltered and filtered datasets, then evaluated their performance on legal exams. Results show that as model size increases, the compute-effectiveness gap between specialized and general models widens.
Abstract（参考訳）: これまでの言語モデルのスケーリング法則は、スクラッチからトレーニングするための計算最適モデルサイズとトークン数を見つけることに重点を置いていた。しかし、この最適バランスを達成するには、ランダムに初期化した重みからモデルをトレーニングする際の広範なデータ要求のため、かなりの計算資源が必要である。継続的な事前学習はコスト効率の良い代替手段であり、事前訓練されたモデルからの計算投資を利用して、広範な新しいデータを必要としない新しい知識を取り入れている。近年の研究では、データ品質がスケーリング法則の定数に影響を与え、最適パラメータ-トークン割り当て比が変化することが示唆されている。この知見に基づいて,計算制約シナリオ下での連続事前学習におけるドメイン特殊化とモデルサイズ間の相互作用について検討する。私たちの目標は、このシナリオの計算効率のよいトレーニング体制を特定し、さまざまなモデルサイズやドメインにまたがって一般化可能な、この相互作用のパターンを検出することです。一般的な訓練と専門訓練を比較するために、Webベースのデータセットをフィルタリングし、法的なドメインデータを抽出した。フィルタされていないデータセットとフィルタされたデータセットの両方に対して,1.5B,3B,7B,14Bパラメータを持つモデルを事前訓練し,その性能を法定試験で評価した。その結果、モデルのサイズが大きくなるにつれて、特殊モデルと一般モデルとの計算効率のギャップが広がることがわかった。

関連論文リスト

Scaling Law Analysis in Federated Learning: How to Select the Optimal Model Size? [12.791994483385409]
高品質で精度の高いトレーニングデータの枯渇に対する懸念が高まっている。 Federated Learningにおけるトレーニングデータセットの分散化は、大規模なモデルをスケールする上での課題を導入している。本稿では,従来のモデルスケーリング体験をフェデレートした学習シナリオに一般化するための洞察を提供する。
論文参考訳（メタデータ） (2025-11-15T12:41:25Z)
Compute-Optimal Scaling for Value-Based Deep RL [99.680827753493]
オンライン価値ベースディープRLの計算スケーリングについて検討する。解析の結果,モデルサイズ,バッチサイズ,UTD間の微妙な相互作用が明らかになった。この現象を理解するためのメンタルモデルを提供し、バッチサイズとUTDを選択するためのガイドラインを構築します。
論文参考訳（メタデータ） (2025-08-20T17:54:21Z)
Scaling Sequential Recommendation Models with Transformers [0.0]
我々は、大規模言語モデルのトレーニングで観察されるスケーリング法則からインスピレーションを得て、シーケンシャルなレコメンデーションのために同様の原則を探求する。計算最適トレーニングは可能だが、アプリケーション固有の計算性能トレードオフを慎重に分析する必要がある。また、より小さなタスク固有のドメイン上で、より大規模なトレーニング済みモデルを微調整することで、パフォーマンスのスケーリングがダウンストリームタスクに変換されることを示す。
論文参考訳（メタデータ） (2024-12-10T15:20:56Z)
Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文参考訳（メタデータ） (2024-10-28T13:48:43Z)
A Hitchhiker's Guide to Scaling Law Estimation [56.06982415792523]
スケーリング法則は、より少ないパラメータやより少ないトレーニングセットで訓練が容易なモデルから外挿することで、ターゲットとなる機械学習モデルの損失を予測する。我々は1000以上のスケーリング法則を推定し、新しいモデルファミリーにおけるスケーリング法則を推定するためのベストプラクティスを導出する。
論文参考訳（メタデータ） (2024-10-15T17:59:10Z)
Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
Learn-Focus-Review(LFR)は、モデルの学習進捗に適応する動的トレーニングアプローチである。 LFRは、データブロック(トークンのシーケンス)にわたるモデルの学習パフォーマンスを追跡し、データセットの困難な領域を再検討する。フルデータセットでトレーニングされたベースラインモデルと比較して、LFRは一貫して低いパープレキシティと高い精度を達成した。
論文参考訳（メタデータ） (2024-09-10T00:59:18Z)
Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文参考訳（メタデータ） (2024-06-16T17:09:24Z)
More Compute Is What You Need [3.184416958830696]
モデル性能はトランスフォーマーモデルに費やされる計算量に大きく依存することを示す新しいスケーリング法則を提案する。 a)推論効率、トレーニングは、より小さなモデルサイズとより大きなトレーニングデータセットを優先すべきであり、(b)利用可能なWebデータセットの枯渇を前提として、モデルサイズをスケールすることが、モデルパフォーマンスをさらに改善するための唯一の方法である、と予測する。
論文参考訳（メタデータ） (2024-04-30T12:05:48Z)
A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文参考訳（メタデータ） (2024-02-02T01:41:38Z)
Large Pre-trained time series models for cross-domain Time series analysis tasks [20.228846068418765]
Large Pre-trained Time-Series Models (LPTM) は、事前トレーニング中に最適なデータセット固有のセグメンテーション戦略を自動的に識別する適応セグメンテーションの新しい手法である。 LPTMは、最先端のベースラインに比べて最大40%データが少なく、トレーニング時間も50%少ない。
論文参考訳（メタデータ） (2023-11-19T20:16:16Z)
Navigating Scaling Laws: Compute Optimality in Adaptive Model Training [39.96209967632896]
近年、ディープラーニングの最先端は、大量のデータに基づいて事前訓練された非常に大きなモデルによって支配されている。適応的な'モデル、すなわちトレーニング中にその形状を変えることができるモデルを可能にすることで、最適性の概念を拡張します。
論文参考訳（メタデータ） (2023-11-06T16:20:28Z)
The Languini Kitchen: Enabling Language Modelling Research at Different Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文参考訳（メタデータ） (2023-09-20T10:31:17Z)
Synthetic Model Combination: An Instance-wise Approach to Unsupervised Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文参考訳（メタデータ） (2022-10-11T10:20:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。