論文の概要: Uncovering Scaling Laws for Large Language Models via Inverse Problems
- arxiv url: http://arxiv.org/abs/2509.07909v1
- Date: Tue, 09 Sep 2025 16:53:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.404849
- Title: Uncovering Scaling Laws for Large Language Models via Inverse Problems
- Title(参考訳): 逆問題による大規模言語モデルのスケーリング法則の解明
- Authors: Arun Verma, Zhaoxuan Wu, Zijian Zhou, Xiaoqiang Lin, Zhiliang Chen, Rachael Hwee Ling Sim, Rui Qiao, Jingtan Wang, Nhung Bui, Xinyuan Niu, Wenyang Hu, Gregory Kang Ruey Lau, Zi-Yu Khoo, Zitong Zhao, Xinyi Xu, Apivich Hemachandra, See-Kiong Ng, Bryan Kian Hsiang Low,
- Abstract要約: 大規模言語モデル(LLM)は、様々な領域で顕著な成功を収めた大規模事前訓練モデルである。
本稿では, LLM の構築を導くスケーリング法則を, 逆問題により効率的に解き出すことができることを主張する。
- 参考スコア(独自算出の注目度): 85.39064541912391
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are large-scale pretrained models that have achieved remarkable success across diverse domains. These successes have been driven by unprecedented complexity and scale in both data and computations. However, due to the high costs of training such models, brute-force trial-and-error approaches to improve LLMs are not feasible. Inspired by the success of inverse problems in uncovering fundamental scientific laws, this position paper advocates that inverse problems can also efficiently uncover scaling laws that guide the building of LLMs to achieve the desirable performance with significantly better cost-effectiveness.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な領域で顕著な成功を収めた大規模事前訓練モデルである。
これらの成功は、データと計算の両方において、前例のない複雑さとスケールによって引き起こされている。
しかし、そのようなモデルの訓練に高いコストがかかるため、LSMを改善するためのブルートフォースによる試行錯誤アプローチは実現不可能である。
基本的な科学的法則を明らかにする上での逆問題の成功に触発されて、逆問題はまた、LCMの構築を導くスケーリング法則を効果的に発見し、より優れたコスト効率で望ましい性能を達成することを提唱する。
関連論文リスト
- Predictable Scale: Part II, Farseer: A Refined Scaling Law in Large Language Models [62.3458061002951]
本稿では,新たなスケール法であるFarseerを紹介した。
モデル損失曲面 $L(N,D)$ を体系的に構築することにより、Farseer は以前の法則よりも経験的データに非常によく適合する。
我々の手法は正確で頑健で、非常に一般化可能な予測をもたらし、優れた外挿能力を示す。
論文 参考訳(メタデータ) (2025-06-12T17:59:23Z) - EULER: Enhancing the Reasoning Ability of Large Language Models through Error-Induced Learning [66.82956219777763]
大きな言語モデル(LLM)は強力な推論能力を示している。
Error-IndUced LEaRning (EULER) モデルは、高品質なソリューションエラーを生成するエラー露光モデルを開発することを目的としている。
論文 参考訳(メタデータ) (2025-05-28T08:57:03Z) - Large Language Models as Attribution Regularizers for Efficient Model Training [0.0]
大規模言語モデル(LLM)は、様々な領域で顕著なパフォーマンスを示している。
我々は,LLM生成したグローバルタスク特徴属性を,より小さなネットワークのトレーニングプロセスに組み込む方法を提案する。
我々のアプローチは、数ショットの学習シナリオにおいて優れたパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2025-02-27T16:55:18Z) - Enhancing the Reasoning Capabilities of Small Language Models via Solution Guidance Fine-Tuning [14.857842644246634]
本稿では,SG(Solution Guidance)およびSGFT(Solution-Guidance Fine-Tuning)について紹介する。
SGは、特定の計算ではなく、意味的および論理的なレベルでの問題理解と分解に焦点を当てている。
SGFTは、SLMを微調整して正確な問題解決ガイダンスを生成することができ、任意のSLMにプロンプトとして柔軟に供給することができる。
論文 参考訳(メタデータ) (2024-12-13T06:45:26Z) - Performance Law of Large Language Models [58.32539851241063]
性能法則は、LLMアーキテクチャの選択と計算資源の効率的な割り当てを導くために用いられる。
性能法則は、LLMアーキテクチャの選択と計算資源の効率的な割り当てを広範な実験なしで導くのに利用できる。
論文 参考訳(メタデータ) (2024-08-19T11:09:12Z) - Why Lift so Heavy? Slimming Large Language Models by Cutting Off the Layers [9.549646359252346]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対処する際、優れた能力を持っている。
これらのモデルの厳密なサイズは、ストレージ、トレーニング、推論において、層積み重ねによる数十億のパラメータを含むため、課題を生じさせる。
レイヤが少なくても、LLMは、特にテキスト分類タスクのプロンプトベースの微調整において、類似またはより良いパフォーマンスレベルを維持していることを示す。
論文 参考訳(メタデータ) (2024-02-18T20:47:10Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。