Fugu-MT 論文翻訳(概要): Structure and Scale in Simplicial Sequence Modelling

論文の概要: Structure and Scale in Simplicial Sequence Modelling

arxiv url: http://arxiv.org/abs/2606.01302v1
Date: Sun, 31 May 2026 15:44:57 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-02 21:34:29.565097
Title: Structure and Scale in Simplicial Sequence Modelling
Title（参考訳）: Simplicial Sequence Modellingの構造とスケール
Authors: Matthew Farrugia-Roberts,
Abstract要約: 隠れマルコフモデルの出力を予測するために訓練された小型変圧器において,性能のスケーリングパターンと表現の相関関係を見出した。残留活性化は、確率的単純性において、潜在状態上の信念分布を線形に符号化することが知られている。
参考スコア（独自算出の注目度）: 4.830289654929358
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Modern large-scale deep learning exhibits two striking empirical phenomena: behavioural scaling laws (predictable performance gains with increasing scale) and emergent mechanisms (structured internal representations and circuits in deep neural networks). We hypothesise that these two phenomena are connected: that predictable changes in behaviour are the result of predictable changes in internal computational structure. In this paper, we report preliminary evidence of such a connection. We find a correlation between scaling patterns in performance and representations in small transformers trained to predict the outputs of a hidden Markov model, for which residual activations are known to linearly encode a belief distribution over latent states in a probability simplex.
Abstract（参考訳）: 現代の大規模ディープラーニングは、行動スケーリング法則(スケールの増大に伴う予測可能なパフォーマンス向上)と創発的メカニズム(ディープニューラルネットワークの内部表現と回路の構造)という、2つの顕著な経験的な現象を示す。この2つの現象は、振る舞いの予測可能な変化は、内部の計算構造における予測可能な変化の結果である、という仮説を立てる。本稿では,そのような関係の予備的証拠を報告する。隠れマルコフモデルの出力を予測するために訓練された小型変圧器において、性能のスケーリングパターンと表現の相関関係を見出した。

関連論文リスト

Hierarchical Latent Structures in Data Generation Process Unify Mechanistic Phenomena across Scale [50.33952894976367]
我々は文脈自由文法を用いて、ウェブスケールテキストコーパスのための忠実で効率的なプロキシである合成コーパスを生成する。設計したデータ生成プロセスにおいて,誘導ヘッド,関数ベクトル,ハイドラ効果という3つの力学現象の出現について検討する。これらの現象の出現を説明する上で,データ生成プロセスの階層構造がX因子となることが示唆された。
論文参考訳（メタデータ） (2026-02-04T14:49:13Z)
A Minimal Task Reveals Emergent Path Integration and Object-Location Binding in a Predictive Sequence Model [0.0]
行動条件付き逐次予測は「世界モデル」を学習するのに十分であることを示す。我々は、現在の入力とササードのような変位から次のトークンを予測するために、リカレントニューラルネットワークを訓練する。復号化解析は、トークンアイデンティティの位置への経路統合と動的結合を明らかにする。
論文参考訳（メタデータ） (2026-02-03T13:08:27Z)
VIKING: Deep variational inference with stochastic projections [48.946143517489496]
変分平均場近似は、現代の過度にパラメータ化されたディープニューラルネットワークと競合する傾向がある。パラメータ空間の2つの独立線型部分空間を考える単純な変分族を提案する。これにより、オーバーパラメトリゼーションを反映した、完全に相関した近似後部を構築することができる。
論文参考訳（メタデータ） (2025-10-27T15:38:35Z)
Explaining Grokking and Information Bottleneck through Neural Collapse Emergence [33.22494588674352]
本稿では,グルーキングの統一的な説明と,神経崩壊のレンズによる情報ボトルネック原理について述べる。本研究では,集団の集団間分散の縮小が,情報ボトルネックとグルーキングの両根底にある重要な要因であることを示す。神経崩壊のダイナミクスを解析することにより、トレーニングセットの適合と神経崩壊の進行の間に異なる時間スケールが、後期現象の挙動に関係していることが示される。
論文参考訳（メタデータ） (2025-09-25T07:17:41Z)
The emergence of sparse attention: impact of data distribution and benefits of repetition [14.652502263025882]
本研究では,トランスフォーマーにおける重要かつ頻繁な注意パターンであるスパースアテンションのトレーニングに伴う出現について検討した。玩具モデルの理論的解析と線形回帰変種を訓練した小型変圧器の経験的観察を組み合わせることで,機械的スパークアテンションの出現を明らかにする。我々の研究は、データ分布とモデル設計が1つの形態の台頭の背後にある学習力学にどのように影響するかを理解するための、シンプルで理論的に基礎的なフレームワークを提供する。
論文参考訳（メタデータ） (2025-05-23T13:14:02Z)
Signal in the Noise: Polysemantic Interference Transfers and Predicts Cross-Model Influence [46.548276232795466]
多意味性は言語モデルに広く浸透しており、解釈とモデル行動制御の大きな課題である。 2つの小さなモデルの多意味的トポロジをマッピングし、意味的に無関係だがモデル内の干渉を示す特徴対を同定する。我々は4つのloci(prompt, token, feature, neuron)に介入し、次のトーケン予測分布における変化を計測し、これらのモデルに体系的な脆弱性を露呈する多意味構造を明らかにする。
論文参考訳（メタデータ） (2025-05-16T18:20:42Z)
Dynamical Mean-Field Theory of Self-Attention Neural Networks [0.0]
トランスフォーマーベースのモデルは、様々な領域で例外的な性能を示している。動作方法や期待されるダイナミクスについてはほとんど分かっていない。非平衡状態における非対称ホップフィールドネットワークの研究に手法を用いる。
論文参考訳（メタデータ） (2024-06-11T13:29:34Z)
Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文参考訳（メタデータ） (2022-02-01T17:11:13Z)
Topographic VAEs learn Equivariant Capsules [84.33745072274942]
本稿では, 地理的に整理された潜伏変数を用いた深部生成モデルを効率的に学習するための新しい手法であるTopographic VAEを紹介する。このようなモデルでは,MNIST上での桁数クラス,幅,スタイルなどの健全な特徴に応じて,その活性化を組織化することが実際に学べることが示される。我々は、既存の群同変ニューラルネットワークの能力を拡張して、複素変換に近似した同値性を示す。
論文参考訳（メタデータ） (2021-09-03T09:25:57Z)
Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文参考訳（メタデータ） (2020-11-18T18:52:08Z)
Structural Causal Models Are (Solvable by) Credal Networks [70.45873402967297]
因果推論は、干潟網の更新のための標準的なアルゴリズムによって得ることができる。この貢献は, 干潟ネットワークによる構造因果モデルを表現するための体系的なアプローチと見なされるべきである。実験により, 実規模問題における因果推論には, クレーダルネットワークの近似アルゴリズムがすぐに利用できることがわかった。
論文参考訳（メタデータ） (2020-08-02T11:19:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。