Fugu-MT 論文翻訳(概要): Not-Just-Scaling Laws: Towards a Better Understanding of the Downstream Impact of Language Model Design Decisions

論文の概要: Not-Just-Scaling Laws: Towards a Better Understanding of the Downstream Impact of Language Model Design Decisions

arxiv url: http://arxiv.org/abs/2503.03862v1
Date: Wed, 05 Mar 2025 19:46:04 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-07 17:59:00.57034
Title: Not-Just-Scaling Laws: Towards a Better Understanding of the Downstream Impact of Language Model Design Decisions
Title（参考訳）: 単なるスケーリング法則:言語モデル設計決定の下流への影響をよりよく理解するために
Authors: Emmy Liu, Amanda Bertsch, Lintang Sutawika, Lindia Tjuatja, Patrick Fernandes, Lara Marinov, Michael Chen, Shreya Singhal, Carolin Lawrence, Aditi Raghunathan, Kiril Gashteovski, Graham Neubig,
Abstract要約: 設計選択が言語モデル能力に与える影響を定量化する。モデルサイズとトレーニングトークンの数以外の機能を組み込むことで、下流のパフォーマンスを予測する能力が3～28%向上する。
参考スコア（独自算出の注目度）: 65.89403417819764
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Improvements in language model capabilities are often attributed to increasing model size or training data, but in some cases smaller models trained on curated data or with different architectural decisions can outperform larger ones trained on more tokens. What accounts for this? To quantify the impact of these design choices, we meta-analyze 92 open-source pretrained models across a wide array of scales, including state-of-the-art open-weights models as well as less performant models and those with less conventional design decisions. We find that by incorporating features besides model size and number of training tokens, we can achieve a relative 3-28% increase in ability to predict downstream performance compared with using scale alone. Analysis of model design decisions reveal insights into data composition, such as the trade-off between language and code tasks at 15-25\% code, as well as the better performance of some architectural decisions such as choosing rotary over learned embeddings. Broadly, our framework lays a foundation for more systematic investigation of how model development choices shape final capabilities.
Abstract（参考訳）: 言語モデルの能力の改善は、モデルのサイズやトレーニングデータの増加に起因することが多いが、場合によっては、キュレートされたデータや異なるアーキテクチャ上の決定でトレーニングされたより小さなモデルの方が、より多くのトークンでトレーニングされたより大きなモデルよりも優れている。これは何の理由ですか。これらの設計選択の影響を定量化するために、最先端のオープンウェイトモデルだけでなく、パフォーマンスの低いモデルや従来の設計決定の少ないモデルを含む、92のオープンソース事前訓練モデルを多種多様なスケールでメタ分析する。モデルサイズやトレーニングトークンの数以外の機能を組み込むことで,スケールのみを使用する場合と比較して,ダウンストリームのパフォーマンスを予測する能力の相対的な3～28%向上が達成できることがわかった。モデル設計決定の分析は、言語とコードタスク間のトレードオフなど、データ構成に関する洞察を15～25パーセントのコードで示し、学習された埋め込みよりもロータリーを選択するなど、いくつかのアーキテクチャ上の決定の優れたパフォーマンスを明らかにします。私たちのフレームワークは、モデル開発の選択肢が最終機能をどのように形成するかについて、より体系的な調査の基盤を築いています。

関連論文リスト

Efficient Construction of Model Family through Progressive Training Using Model Expansion [35.743595710122506]
本稿では,進行学習によるモデルファミリの効率的な構築法を提案する。本手法は,独立に訓練されたモデルに匹敵する性能を維持しつつ,計算コストを約25%削減する。
論文参考訳（メタデータ） (2025-04-01T10:21:52Z)
Exploring the design space of deep-learning-based weather forecasting systems [56.129148006412855]
本稿では,異なる設計選択がディープラーニングに基づく天気予報システムに与える影響を系統的に分析する。 UNet、完全畳み込みアーキテクチャ、トランスフォーマーベースモデルなどの固定グリッドアーキテクチャについて検討する。固定グリッドモデルの強靭な性能とグリッド不変アーキテクチャの柔軟性を組み合わせたハイブリッドシステムを提案する。
論文参考訳（メタデータ） (2024-10-09T22:25:50Z)
Scaling Laws Across Model Architectures: A Comparative Analysis of Dense and MoE Models in Large Language Models [34.79589443380606]
大規模言語モデル(LLM)のスケーリングは、モデルトレーニングとデプロイメントの効率性と効率性にとって重要な研究領域である。本研究は,Dense Models と MoE Model のスケーリング法則の伝達性と相違について検討する。
論文参考訳（メタデータ） (2024-10-08T03:21:56Z)
Fine-tuning large language models for domain adaptation: Exploration of training strategies, scaling, model merging and synergistic capabilities [4.389938747401259]
本研究は、材料科学や工学などの分野における大規模言語モデル(LLM)に対する微調整戦略の効果について考察する。複数の微調整モデルの融合は、親モデルの個々の貢献を超越した能力の出現につながる可能性がある。
論文参考訳（メタデータ） (2024-09-05T11:49:53Z)
Observational Scaling Laws and the Predictability of Language Model Performance [51.2336010244645]
本稿では、モデルトレーニングを回避し、100のパブリックモデルからスケーリング法則を構築する観察的アプローチを提案する。いくつかの創発現象が滑らかでシグモダルな挙動を辿り、小さなモデルから予測可能であることを示す。言語モデル機能の改善が進むにつれて、Chain-of-ThoughtやSelf-Consistencyといったポストトレーニング介入の影響を予測する方法を示す。
論文参考訳（メタデータ） (2024-05-17T17:49:44Z)
What matters when building vision-language models? [52.8539131958858]
我々は、80億のパラメータを持つ効率的な基礎的視覚言語モデルであるIdefics2を開発した。 Idefics2は、様々なマルチモーダルベンチマークで、そのサイズカテゴリ内で最先端のパフォーマンスを達成する。トレーニング用に作成されたデータセットとともに、モデル(ベース、指示、チャット)をリリースします。
論文参考訳（メタデータ） (2024-05-03T17:00:00Z)
A Multi-dimensional Evaluation of Tokenizer-free Multilingual Pretrained Models [87.7086269902562]
サブワードベースのモデルは、多くの設定において依然として最も実用的な選択肢であることを示している。我々は,新しいモデルを設計し,評価する際のこれらの要因を検討するために,トークンフリーな手法の今後の取り組みを奨励する。
論文参考訳（メタデータ） (2022-10-13T15:47:09Z)
Learning Dynamics Models for Model Predictive Agents [28.063080817465934]
モデルに基づく強化学習は、データからテクトダイナミックスモデルを学習し、そのモデルを使用して振る舞いを最適化する。本稿では, 動的モデル学習における設計選択の役割を, 基礎構造モデルとの比較により明らかにすることを目的としている。
論文参考訳（メタデータ） (2021-09-29T09:50:25Z)
Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文参考訳（メタデータ） (2020-12-08T18:03:21Z)
Scaling Laws for Neural Language Models [14.472857826717613]
クロスエントロピー損失に対する言語モデル性能のスケーリング法則について検討する。損失は、モデルサイズ、データセットサイズ、トレーニングに使用される計算量など、パワーローとしてスケールする。
論文参考訳（メタデータ） (2020-01-23T03:59:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。