Fugu-MT 論文翻訳(概要): I Dropped a Neural Net

論文の概要: I Dropped a Neural Net

arxiv url: http://arxiv.org/abs/2602.19845v1
Date: Mon, 23 Feb 2026 13:49:05 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.835211
Title: I Dropped a Neural Net
Title（参考訳）: ニューラルネットを落とした
Authors: Hyunwoo Park,
Abstract要約: Residual Networkの非ラベリング層を考慮し、レイヤの正確な順序を復元する。問題は各ブロックの入力と出力のプロジェクションをペアにし、再組み立てされたブロックを順序付けする。順序付けには、Delta-norm や $|W_textout|_F$ のような粗いプロキシでシードし、その後平均二乗誤差をゼロにする。
参考スコア（独自算出の注目度）: 6.4158736375778185
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A recent Dwarkesh Patel podcast with John Collison and Elon Musk featured an interesting puzzle from Jane Street: they trained a neural net, shuffled all 96 layers, and asked to put them back in order. Given unlabelled layers of a Residual Network and its training dataset, we recover the exact ordering of the layers. The problem decomposes into pairing each block's input and output projections ($48!$ possibilities) and ordering the reassembled blocks ($48!$ possibilities), for a combined search space of $(48!)^2 \approx 10^{122}$, which is more than the atoms in the observable universe. We show that stability conditions during training like dynamic isometry leave the product $W_{\text{out}} W_{\text{in}}$ for correctly paired layers with a negative diagonal structure, allowing us to use diagonal dominance ratio as a signal for pairing. For ordering, we seed-initialize with a rough proxy such as delta-norm or $\|W_{\text{out}}\|_F$ then hill-climb to zero mean squared error.
Abstract（参考訳）: John Collison氏とElon Musk氏による最近のDwarkesh Patelポッドキャストでは、Jane Street氏の興味深いパズルが取り上げられました。 Residual Networkとそのトレーニングデータセットの非ラベリング層を考慮し、レイヤの正確な順序を復元する。この問題は、各ブロックの入力と出力のプロジェクション(48!$可能性)と再組み立てされたブロック(48!$可能性)のペアに分解され、(48!)^2 \approx 10^{122}$という、観測可能な宇宙の原子より大きい検索空間に対して、再組み立てされたブロック(48!$可能性)が順序付けられる。 W_{\text{out}} W_{\text{in}}$ for correct paired layer with a negative diagonal structure, so can use diagonal dominance ratio as a signal for pairing。順序付けには、Delta-norm や $\|W_{\text{out}}\|_F$ のような粗いプロキシでシード初期化し、その後平均二乗誤差をゼロにする。

関連論文リスト

The Hidden Width of Deep ResNets: Tight Error Bounds and Phase Diagrams [15.246178589173523]
大深度残差ネットワーク(ResNets)の勾配に基づくトレーニングについて検討する。可変深さ$L$,固定埋め込み寸法$D$,任意の隠れ幅$M$で、トレーニングダイナミクスはニューラル平均ODEトレーニングダイナミクスに収束することを示す。
論文参考訳（メタデータ） (2025-09-12T11:51:44Z)
Tagging fully hadronic exotic decays of the vectorlike $\mathbf{B}$ quark using a graph neural network [0.0]
対生成ベクトル型$B$クォークのLHC確率を、新しいゲージシンクレット(pseudo)スカラー場$Phi$と$b$クォークに外部的に崩壊させる。標準模型の背景が大きく、レプトニックハンドルがないため、調査は困難である。この課題を克服するために、グラフニューラルネットワークとディープニューラルネットワークを組み合わせたハイブリッドディープラーニングモデルを用いる。
論文参考訳（メタデータ） (2025-05-12T17:20:34Z)
Contextual Bandit Optimization with Pre-Trained Neural Networks [0.0]
より小さなモデルの体制において、事前学習がいかに役立つかを検討する。最後の層の次元と作用数$K$が水平線$T$よりもはるかに小さいとき、E2TCのサブ線形後悔を示す。弱い訓練体制では、最後の層のみが学習されると、問題は不特定な線形バンディットへと減少する。
論文参考訳（メタデータ） (2025-01-09T10:21:19Z)
Constructive Universal Approximation and Finite Sample Memorization by Narrow Deep ReLU Networks [0.0]
我々は$N$の異なる点を持つデータセットが$mathbbRd$と$M$の出力クラスを正確に分類できることを示した。また、任意の有界領域に対して$Lp(Omega; mathbbRm)$の普遍近似定理も証明する。我々の結果は、深層ニューラルネットワークにおける制御性、表現性、およびトレーニングのダイナミクスを接続する統一的で解釈可能なフレームワークを提供する。
論文参考訳（メタデータ） (2024-09-10T14:31:21Z)
Geometric structure of Deep Learning networks and construction of global ${\mathcal L}^2$ minimizers [1.189367612437469]
我々は低パラメータ深層学習(DL)ネットワークにおける$mathcalL2$コスト関数の局所的および大域的最小化を明示的に決定する。
論文参考訳（メタデータ） (2023-09-19T14:20:55Z)
Horizon-free Reinforcement Learning in Adversarial Linear Mixture MDPs [72.40181882916089]
我々のアルゴリズムが $tildeObig((d+log (|mathcalS|2 |mathcalA|))sqrtKbig)$ regret with full-information feedback, where $d$ is the dimension of a known feature mapping is linearly parametrizing the unknown transition kernel of the MDP, $K$ is the number of episodes, $|mathcalS|$ and $|mathcalA|$ is the standardities of the state and action space。
論文参考訳（メタデータ） (2023-05-15T05:37:32Z)
The Sample Complexity of Online Contract Design [120.9833763323407]
オンライン環境での隠れアクションの主エージェント問題について検討する。各ラウンドにおいて、主席は、各結果に基づいてエージェントへの支払いを指定する契約を投稿する。エージェントは、自身のユーティリティを最大化する戦略的な行動選択を行うが、プリンシパルによって直接観察できない。
論文参考訳（メタデータ） (2022-11-10T17:59:42Z)
Learning (Very) Simple Generative Models Is Hard [45.13248517769758]
我々は,$mathbbRdtobbRd'$の出力座標が$mathrmpoly(d)$ニューロンを持つ一層ReLUネットワークである場合でも,リアルタイムアルゴリズムが問題を解決可能であることを示す。我々の証明の鍵となる要素は、コンパクトに支持されたピースワイズ線形関数$f$をニューラルネットワークで束ねたスロープで構築することであり、$mathcalN(0,1)$のプッシュフォワードは$mathcalのすべての低度モーメントと一致する。
論文参考訳（メタデータ） (2022-05-31T17:59:09Z)
On the Optimal Memorization Power of ReLU Neural Networks [53.15475693468925]
フィードフォワードReLUニューラルネットワークは、軽度の分離可能性仮定を満たす任意のN$ポイントを記憶することができることを示す。このような大きなビットの複雑性を持つことは、サブ線形数のパラメータを記憶するのに必要であり、十分であることを示す。
論文参考訳（メタデータ） (2021-10-07T05:25:23Z)
An Exponential Improvement on the Memorization Capacity of Deep Threshold Networks [40.489350374378645]
我々は$widetildemathcalO(e1/delta2+sqrtn)$ニューロンと$widetildemathcalO(fracddelta+n)$ウェイトが十分であることを証明した。また、超平面を用いて球面上の$n$の点を分離する純粋に幾何学的な問題にニューラルネットワークを接続することで、新しい下界を証明した。
論文参考訳（メタデータ） (2021-06-14T19:42:32Z)
Beyond Lazy Training for Over-parameterized Tensor Decomposition [69.4699995828506]
過度なパラメータ化対象の勾配勾配は遅延学習体制を超え、データ中の特定の低ランク構造を利用する可能性があることを示す。以上の結果から,過パラメータ化対象の勾配勾配は遅延学習体制を超え,データ中の特定の低ランク構造を利用する可能性が示唆された。
論文参考訳（メタデータ） (2020-10-22T00:32:12Z)
Learning Over-Parametrized Two-Layer ReLU Neural Networks beyond NTK [58.5766737343951]
2層ニューラルネットワークを学習する際の降下のダイナミクスについて考察する。過度にパラメータ化された2層ニューラルネットワークは、タンジェントサンプルを用いて、ほとんどの地上で勾配損失を許容的に学習できることを示す。
論文参考訳（メタデータ） (2020-07-09T07:09:28Z)
Private Learning of Halfspaces: Simplifying the Construction and Reducing the Sample Complexity [63.29100726064574]
有限格子上の半空間に対して微分プライベート学習器を$mathbbRd$で$G$で、サンプル複雑性を$approx d2.5cdot 2log*|G|$で表す。学習者のためのビルディングブロックは、線形実現可能性問題を解くために、微分プライベートな新しいアルゴリズムである。
論文参考訳（メタデータ） (2020-04-16T16:12:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。