論文の概要: Law of Neural Interaction: Depth-Width Shape, Interaction Efficiency, and Generalization
- arxiv url: http://arxiv.org/abs/2605.27989v1
- Date: Wed, 27 May 2026 05:23:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.768901
- Title: Law of Neural Interaction: Depth-Width Shape, Interaction Efficiency, and Generalization
- Title(参考訳): 神経相互作用の法則:深さ-幅、相互作用効率、一般化
- Authors: Wenjie Sun, Jinning Yang, Shuai Zhang, Mengnan Du,
- Abstract要約: 固定予算の下では、良い一般化は通常、効率的な神経相互作用を伴う。
その結果,R_D/W$は資源利用効率に影響を及ぼすことがわかった。
- 参考スコア(独自算出の注目度): 26.200887451000593
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The guidance of scaling laws has increased the resource demands of modern large language models (LLMs), yet it remains questionable whether these models utilize resources effectively under a fixed budget. Previous research has proved superposition as a key contributor to loss. By leveraging the Neural Feature Ansatz, we extend superposition from parameter space to gradient space and define it as neural interaction. We find that under a fixed budget, good generalization is usually accompanied by efficient neural interactions, and the model can be placed in an efficient interaction interval by adjusting its depth-width ratio ($R_{D/W}$). In addition, as the budget scales up, the efficient interaction interval of the model remains relatively stable. By comparing existing small scale dense LLMs, we observe that models operating near this interval tend to perform better on the MMLU-Pro benchmark. Our findings reveal that the $R_{D/W}$ influences resource utilization efficiency and thereby affects generalization, providing insights into model shape initialization and the understanding of model generalization mechanisms. Code for Neural Interaction Law is available at: https://anonymous.4open.science/r/Neural_Interaction_Law-D788
- Abstract(参考訳): 拡張法則のガイダンスは、現代の大規模言語モデル(LLM)の資源需要を増大させたが、これらのモデルが固定予算の下で資源を効果的に活用するかどうか疑問視されている。
これまでの研究では、迷路が損失の鍵となることが証明されている。
ニューラル特徴アンザッツを利用することで、パラメータ空間から勾配空間への重畳を拡大し、それをニューラル相互作用として定義する。
固定予算の下では、良い一般化は通常、効率的な神経相互作用を伴い、その深さ幅比(R_{D/W}$)を調節することで、効率的な相互作用間隔にモデルを置くことができる。
さらに、予算が大きくなるにつれて、モデルの効率的な相互作用間隔は比較的安定している。
従来の小規模高密度LCMとの比較により,MMLU-Proベンチマークでは,この間隔付近で動作するモデルの方が良好であることが示された。
R_{D/W}$は資源利用効率に影響を及ぼし、したがって一般化に影響を与え、モデル形状の初期化とモデル一般化機構の理解に関する洞察を提供する。
Neural Interaction Lawのコードは、https://anonymous.4open.science/r/Neural_Interaction_Law-D788で公開されている。
関連論文リスト
- Beyond Scaling Curves: Internal Dynamics of Neural Networks Through the NTK Lens [0.5745241788717261]
我々は、ニューラルネットワークがデータの下でどのように振る舞うかを経験的に分析し、ニューラル・タンジェント・カーネル(NTK)のレンズを通してモデルをスケーリングする。
我々の標準的な視覚タスクの発見は、内部モデル力学が逆の挙動を示すにもかかわらず、同様のパフォーマンススケーリング指数が生じることを示している。
また、無限幅制限への収束が有限幅モデルにおけるスケーリングの挙動にどのように影響するかという未解決のニューラルスケーリング問題にも対処する。
論文 参考訳(メタデータ) (2025-07-07T14:17:44Z) - DeNOTS: Stable Deep Neural ODEs for Time Series [0.99450247450967]
CDEは不規則時系列の時間的進化を処理する方法を提供する。
我々は、NFEの増加とモデルの「深化」のために統合時間地平線を拡大することを提案する。
また、負のフィードバックによって動的を安定化する方法を提案する。
論文 参考訳(メタデータ) (2024-08-15T09:49:37Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Dynamic Tensor Decomposition via Neural Diffusion-Reaction Processes [24.723536390322582]
テンソル分解は マルチウェイデータ解析の 重要なツールです
動的EMbedIngs fOr Dynamic Algorithm dEcomposition (DEMOTE)を提案する。
シミュレーション研究と実世界の応用の両方において,本手法の利点を示す。
論文 参考訳(メタデータ) (2023-10-30T15:49:45Z) - Neural Additive Models for Location Scale and Shape: A Framework for
Interpretable Neural Regression Beyond the Mean [1.0923877073891446]
ディープニューラルネットワーク(DNN)は、様々なタスクで非常に効果的であることが証明されている。
この成功にもかかわらず、DNNの内部構造はしばしば透明ではない。
この解釈可能性の欠如は、本質的に解釈可能なニューラルネットワークの研究の増加につながった。
論文 参考訳(メタデータ) (2023-01-27T17:06:13Z) - Cross-Model Comparative Loss for Enhancing Neuronal Utility in Language
Understanding [82.46024259137823]
幅広いタスクに対するクロスモデル比較損失を提案する。
3つの異なるNLUタスクから14のデータセットに対する広範な実験により比較損失の普遍的有効性を示す。
論文 参考訳(メタデータ) (2023-01-10T03:04:27Z) - Error Autocorrelation Objective Function for Improved System Modeling [1.2760453906939444]
我々は,誤差を最小限に抑えるだけでなく,誤差間の相関を最小化する「ホワイトニング」コスト関数「Ljung-Box statistic」を導入する。
その結果、リカレントニューラルネットワーク(RNN)とイメージオートエンコーダ(2d)の一般化が大幅に改善された。
論文 参考訳(メタデータ) (2020-08-08T19:20:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。