Fugu-MT 論文翻訳(概要): Investigating the Impact of Model Complexity in Large Language Models

論文の概要: Investigating the Impact of Model Complexity in Large Language Models

arxiv url: http://arxiv.org/abs/2410.00699v1
Date: Tue, 1 Oct 2024 13:53:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-05 04:25:20.080382
Title: Investigating the Impact of Model Complexity in Large Language Models
Title（参考訳）: 大規模言語モデルにおけるモデル複雑度の影響の検討
Authors: Jing Luo, Huiyuan Wang, Weiran Huang,
Abstract要約: 事前訓練された微調整パラダイムに基づく大規模言語モデル(LLM)は、自然言語処理タスクの解決において重要な役割を担っている。本稿では,自己回帰 LLM に着目し,HMM (Hidden Markov Models) を用いたモデリングを提案する。
参考スコア（独自算出の注目度）: 3.7919508292745676
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) based on the pre-trained fine-tuning paradigm have become pivotal in solving natural language processing tasks, consistently achieving state-of-the-art performance. Nevertheless, the theoretical understanding of how model complexity influences fine-tuning performance remains challenging and has not been well explored yet. In this paper, we focus on autoregressive LLMs and propose to employ Hidden Markov Models (HMMs) to model them. Based on the HMM modeling, we investigate the relationship between model complexity and the generalization capability in downstream tasks. Specifically, we consider a popular tuning paradigm for downstream tasks, head tuning, where all pre-trained parameters are frozen and only individual heads are trained atop pre-trained LLMs. Our theoretical analysis reveals that the risk initially increases and then decreases with rising model complexity, showcasing a "double descent" phenomenon. In this case, the initial "descent" is degenerate, signifying that the "sweet spot" where bias and variance are balanced occurs when the model size is zero. Obtaining the presented in this study conclusion confronts several challenges, primarily revolving around effectively modeling autoregressive LLMs and downstream tasks, as well as conducting a comprehensive risk analysis for multivariate regression. Our research is substantiated by experiments conducted on data generated from HMMs, which provided empirical support and alignment with our theoretical insights.
Abstract（参考訳）: 事前訓練された微調整パラダイムに基づく大規模言語モデル(LLM)は、自然言語処理タスクの解決において重要な役割を担い、常に最先端のパフォーマンスを達成している。しかし、モデル複雑性が微調整性能にどのように影響するかの理論的理解は依然として困難であり、まだ十分に研究されていない。本稿では,自己回帰 LLM に着目し,HMM (Hidden Markov Models) を用いたモデリングを提案する。 HMMモデリングに基づいて、下流タスクにおけるモデル複雑性と一般化能力の関係について検討する。具体的には、下流タスクの一般的なチューニングパラダイムであるヘッドチューニングについて検討し、事前学習されたパラメータはすべて凍結され、個別のヘッドのみが事前学習されたLLM上でトレーニングされる。我々の理論的分析により、リスクは最初増加し、モデル複雑性の上昇とともに減少し、"二重降下"現象を示すことが明らかとなった。この場合、最初の「退化」は縮退し、モデルサイズがゼロのときにバイアスと分散のバランスをとる「スイートスポット」が生じることを意味する。本研究の結論は, 自己回帰型LLMと下流タスクを効果的にモデル化すること, 多変量回帰の包括的リスク分析を行うことを中心に, いくつかの課題に直面する。我々の研究は、HMMから生成されたデータに基づいて行われた実験によって裏付けられ、実験的な支援と理論的な洞察との整合性を提供する。

関連論文リスト

M-Loss: Quantifying Model Merging Compatibility with Limited Unlabeled Data [9.502531621979694]
本稿では,新しい評価指標であるMerging-ensembling loss (M-Loss)を紹介する。 M-Lossは、非常に限られたラベルのないデータを用いて、マージソースモデルの互換性を定量化する。理論解析と実験により,M-Lossをマージプロセスに組み込むことで,マージモデルとモデルアンサンブルのアライメントが大幅に向上することが示された。
論文参考訳（メタデータ） (2026-02-09T12:03:36Z)
How and Why LLMs Generalize: A Fine-Grained Analysis of LLM Reasoning from Cognitive Behaviors to Low-Level Patterns [51.02752099869218]
大きな言語モデル(LLM)は、非常に異なる一般化の振る舞いを示す。推論を原子核スキルに分解する新しいベンチマークを導入する。 SFTモデルはよりシャープなドリフトと表面パターンへの過度な適合を示すのに対し、RL型モデルはより安定した行動プロファイルを維持し、推論スキルの崩壊に抵抗することを示す。
論文参考訳（メタデータ） (2025-12-30T08:16:20Z)
The Law of Multi-Model Collaboration: Scaling Limits of Model Ensembling for Large Language Models [54.51795784459866]
マルチモデル協調のための性能スケーリングの理論的枠組みを提案する。本稿では,マルチモデルシステムにおいて,パラメータの総数に関して,パワー則のスケーリングが従うことを示す。不均一なモデルファミリのアンサンブルは、単一のモデルファミリ内で形成されたものよりも優れたパフォーマンスのスケーリングを実現する。
論文参考訳（メタデータ） (2025-12-29T09:55:12Z)
Model Merging via Multi-Teacher Knowledge Distillation [11.543771846135021]
モデルマージ設定に特化して、新しい平坦性を考慮したPAC-Bayes一般化を導入する。我々は,少ないラベルのないデータに基づいて,マルチ教師の知識蒸留としてマージするモデルを構築した。我々は,学生教師のKulback-Leibler分散の最小化が,合併モデルの過大なリスクの上限を直接締め付けることを正式に証明した。
論文参考訳（メタデータ） (2025-12-24T17:10:44Z)
Understanding Overadaptation in Supervised Fine-Tuning: The Role of Ensemble Methods [11.695512384798299]
監視された微調整は、基礎モデルを専門的なタスクに適応するための支配的なアプローチである。視覚モデルでは、事前訓練されたモデルと微調整されたモデルを組み合わせることでこの問題を軽減することが示されている。アンサンブルモデルは基礎モデルからの一般的な知識を保持するだけでなく、微調整されたドメイン自体においても、微調整されたモデルよりも優れる。
論文参考訳（メタデータ） (2025-06-02T17:23:16Z)
LLM Web Dynamics: Tracing Model Collapse in a Network of LLMs [17.054331650590065]
LLM Web Dynamics(LWD)は,ネットワークレベルでのモデル崩壊を効率的に調査するためのフレームワークである。検索拡張生成(RAG)データベースを用いてインターネットをシミュレートすることにより,モデル出力の収束パターンを解析する。
論文参考訳（メタデータ） (2025-05-26T22:10:52Z)
Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文参考訳（メタデータ） (2025-04-10T17:15:53Z)
Graph-based Unsupervised Disentangled Representation Learning via Multimodal Large Language Models [42.17166746027585]
複素データ内の因子化属性とその相互関係を学習するための双方向重み付きグラフベースフレームワークを提案する。具体的には、グラフの初期ノードとして要素を抽出する$beta$-VAEベースのモジュールを提案する。これらの相補的加群を統合することで、我々は細粒度、実用性、教師なしの絡み合いをうまく達成できる。
論文参考訳（メタデータ） (2024-07-26T15:32:21Z)
Task Groupings Regularization: Data-Free Meta-Learning with Heterogeneous Pre-trained Models [83.02797560769285]
Data-Free Meta-Learning (DFML)は、トレーニング済みモデルのコレクションから、元のデータにアクセスせずに知識を抽出することを目的としている。現在の手法は、事前訓練されたモデル間の不均一性を見落とし、タスクの衝突による性能低下につながることが多い。課題群規則化(Task Groupings Regularization)は、矛盾するタスクをグループ化し整合させることにより、モデルの不均一性から恩恵を受ける新しいアプローチである。
論文参考訳（メタデータ） (2024-05-26T13:11:55Z)
EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。 EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文参考訳（メタデータ） (2024-05-23T05:25:45Z)
Model-Based RL for Mean-Field Games is not Statistically Harder than Single-Agent RL [57.745700271150454]
モデルに基づく関数近似を用いた平均フィールドゲーム(MFG)における強化学習のサンプル複雑性について検討した。本稿では、モデルクラスの複雑性を特徴付けるためのより効果的な概念である部分モデルベースエルダー次元(P-MBED)を紹介する。
論文参考訳（メタデータ） (2024-02-08T14:54:47Z)
AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。 AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文参考訳（メタデータ） (2023-10-04T04:26:33Z)
Learning a model is paramount for sample efficiency in reinforcement learning control of PDEs [5.488334211013093]
RLエージェントの訓練と並行して動作モデルを学ぶことで,実システムからサンプリングしたデータ量を大幅に削減できることを示す。また、RLトレーニングのバイアスを避けるために、モデルを反復的に更新することが重要であることも示している。
論文参考訳（メタデータ） (2023-02-14T16:14:39Z)
Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文参考訳（メタデータ） (2023-02-08T07:37:51Z)
When to Update Your Model: Constrained Model-based Reinforcement Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文参考訳（メタデータ） (2022-10-15T17:57:43Z)
On the Influence of Enforcing Model Identifiability on Learning dynamics of Gaussian Mixture Models [14.759688428864159]
特異モデルからサブモデルを抽出する手法を提案する。本手法はトレーニング中のモデルの識別性を強制する。この手法がディープニューラルネットワークのようなより複雑なモデルにどのように適用できるかを示す。
論文参考訳（メタデータ） (2022-06-17T07:50:22Z)
A Farewell to the Bias-Variance Tradeoff? An Overview of the Theory of Overparameterized Machine Learning [37.01683478234978]
機械学習(ML)の急速な進歩は、この分野の長年のドグマに挑戦する科学的な疑問を数多く提起している。最も重要なライドルの1つは、パラメータ化されたモデルの優れた経験的一般化である。
論文参考訳（メタデータ） (2021-09-06T10:48:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。