Fugu-MT 論文翻訳(概要): Emergent Manifold Separability during Reasoning in Large Language Models

論文の概要: Emergent Manifold Separability during Reasoning in Large Language Models

arxiv url: http://arxiv.org/abs/2602.20338v1
Date: Mon, 23 Feb 2026 20:36:17 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.524111
Title: Emergent Manifold Separability during Reasoning in Large Language Models
Title（参考訳）: 大規模言語モデルにおける推論時の創発的マニフォールド分離性
Authors: Alexandre Polo, Chanwoo Chun, SueYeon Chung,
Abstract要約: Chain-of-Thoughtは大規模言語モデルの推論を大幅に改善する。本研究では,潜伏表現の線形分離性について,探究訓練の難易度を考慮せずに定量化する。
参考スコア（独自算出の注目度）: 46.78826734548872
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Chain-of-Thought (CoT) prompting significantly improves reasoning in Large Language Models, yet the temporal dynamics of the underlying representation geometry remain poorly understood. We investigate these dynamics by applying Manifold Capacity Theory (MCT) to a compositional Boolean logic task, allowing us to quantify the linear separability of latent representations without the confounding factors of probe training. Our analysis reveals that reasoning manifests as a transient geometric pulse, where concept manifolds are untangled into linearly separable subspaces immediately prior to computation and rapidly compressed thereafter. This behavior diverges from standard linear probe accuracy, which remains high long after computation, suggesting a fundamental distinction between information that is merely retrievable and information that is geometrically prepared for processing. We interpret this phenomenon as \emph{Dynamic Manifold Management}, a mechanism where the model dynamically modulates representational capacity to optimize the bandwidth of the residual stream throughout the reasoning chain.
Abstract（参考訳）: CoT(Chain-of-Thought)は、大規模言語モデルにおける推論を大幅に改善するが、基礎となる表現幾何学の時間的ダイナミクスは理解されていない。本研究では, 行列容量理論(Manifold Capacity Theory, MCT)を構成ブール論理タスクに適用することにより, プローブ学習の難易度を考慮せずに, 潜在表現の線形分離性を定量化する。解析の結果, 推論は過渡的幾何パルスとして表され, 概念多様体は計算直前に線形分離可能部分空間に切り離され, その後急速に圧縮されることがわかった。この振舞いは、計算後長く続く標準的な線形プローブ精度から分岐しており、単に検索可能な情報と、処理のために幾何学的に準備された情報との根本的な区別を示唆している。この現象を 'emph{Dynamic Manifold Management} と解釈し、モデルが表現能力を動的に変調し、推論チェーン全体を通して残留ストリームの帯域幅を最適化するメカニズムについて述べる。

関連論文リスト

Structure and Redundancy in Large Language Models: A Spectral Study via Random Matrix Theory [0.0]
この論文は、現代のディープラーニング、信頼性、効率性において、永続的で密接に関連する2つの課題に対処する。層と入力間の隠れアクティベーションの固有値ダイナミクスを解析することにより、スペクトル統計学がモデル挙動にコンパクトで安定で解釈可能なレンズを提供することを示す。このフレームワーク内では、最初のコントリビューションであるEigenTrackが、大規模言語と視覚言語モデルにおける幻覚とアウト・オブ・ディストリビューションの振る舞いをリアルタイムに検出する手法を導入した。第二の貢献である RMT-KD は、ランダム行列理論知識蒸留によるディープネットワークの圧縮に対する原則的なアプローチを示す。
論文参考訳（メタデータ） (2026-02-25T19:11:56Z)
KoopGen: Koopman Generator Networks for Representing and Predicting Dynamical Systems with Continuous Spectra [65.11254608352982]
生成元をベースとしたニューラル・クープマン・フレームワークを導入し,構造的かつ状態に依存したクープマン・ジェネレータの表現を通じて動的にモデル化する。固有のカルテス分解をスキュー結合および自己結合成分に利用することにより、KoopGenは可逆的な散逸から保守的な輸送を分離する。
論文参考訳（メタデータ） (2026-02-15T06:32:23Z)
Backpropagation as Physical Relaxation: Exact Gradients in Finite Time [0.0]
ニューラルネットワークをトレーニングするための基礎アルゴリズムとして,'Dyadic Backproagation'がある。物理力学系の有限時間緩和として現れることを示す。層遷移の自然な時間スケールである単位ステップのオイラー離散化は、正確に2Lのステップで標準のバックプロパゲーションを復元する。
論文参考訳（メタデータ） (2026-02-02T16:21:05Z)
A Critical Assessment of Pattern Comparisons Between POD and Autoencoders in Intraventricular Flows [4.123458880886283]
自動エンコーダ(AE)モデルは,特定の潜在空間構成の下でPODのようなコヒーレント構造を再現可能であることを示す。全体として、AEsは特定の潜在空間構成の下でPOD様のコヒーレント構造を再現できることを示す。
論文参考訳（メタデータ） (2025-12-22T13:21:11Z)
Spatially-informed transformers: Injecting geostatistical covariance biases into self-attention for spatio-temporal forecasting [0.0]
本稿では,学習可能なコスタティクスカーネルを介して,地理的帰納バイアスを直接自己保持機構に注入するハイブリッドアーキテクチャを提案する。本稿では,ネットワークがバックプロパゲーションによって下位プロセスの真の空間パラメータを復元する「Deep Variography'」現象を実証する。
論文参考訳（メタデータ） (2025-12-19T15:32:24Z)
Emergence of Superposition: Unveiling the Training Dynamics of Chain of Continuous Thought [64.43689151961054]
有向グラフ到達性問題に対する簡易な2層変圧器のトレーニング力学を理論的に解析する。分析の結果,連続的思考を用いたトレーニングでは,まずインデックスマッチングロジットが増加し,その後は軽度な仮定の下で拘束されることがわかった。
論文参考訳（メタデータ） (2025-09-27T15:23:46Z)
Emergence of Quantised Representations Isolated to Anisotropic Functions [0.0]
本稿では,既存のスポットライト共振法に基づく表現構造決定手法を提案する。これは、アクティベーション関数のみを変更する制御されたアブレーション研究を通じて、オートエンコーダモデルにおいて、個々の表現がどのように出現し、組織化できるかを示す。この手法を用いて、関数駆動対称性が表現に暗黙の帰納バイアスとして作用するかどうかを判定する。
論文参考訳（メタデータ） (2025-07-16T09:27:54Z)
Transformers Are Universally Consistent [14.904264782690639]
ソフトマックスに基づく非線形アテンションを備えたトランスフォーマーは,最小二乗の回帰処理を行う場合,一様に整合性を示す。我々は経験的誤差の上限を導出し、この条件下では$mathcalO(t-1/2d)$の証明可能な速度で減衰し、$t$は入力トークンの数を表し、$d$は埋め込み次元を表す。
論文参考訳（メタデータ） (2025-05-30T12:39:26Z)
I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data? [76.15163242945813]
大規模言語モデル (LLM) は、多くの人が知能の形式を示すと結論づけている。本稿では,潜在離散変数として表現される人間解釈可能な概念に基づいてトークンを生成する新しい生成モデルを提案する。
論文参考訳（メタデータ） (2025-03-12T01:21:17Z)
Convex Analysis of the Mean Field Langevin Dynamics [49.66486092259375]
平均場ランゲヴィン力学の収束速度解析について述べる。ダイナミックスに付随する$p_q$により、凸最適化において古典的な結果と平行な収束理論を開発できる。
論文参考訳（メタデータ） (2022-01-25T17:13:56Z)
Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。分散による離散乗法雑音のパラメータによく現れることを示す。最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文参考訳（メタデータ） (2020-06-11T09:58:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。