論文の概要: A Measure-Theoretic Analysis of Reasoning: Structural Generalization and Approximation Limits
- arxiv url: http://arxiv.org/abs/2605.19944v1
- Date: Tue, 19 May 2026 15:00:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.456652
- Title: A Measure-Theoretic Analysis of Reasoning: Structural Generalization and Approximation Limits
- Title(参考訳): 推論の測度論的解析:構造一般化と近似限界
- Authors: Yuyang Zhang, Yifu Zhang, Xuehai Zhou, Xiaoyin Chen,
- Abstract要約: 離散軌跡を計量空間に投影し、領域シフトを定量化する。
カントロビッチ双対性を呼び起こすと、アーキテクチャ上のリプシッツ連続性と汎関数近似極限によるOOD一般化が成立する。
- 参考スコア(独自算出の注目度): 17.425526755350948
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While empirical scaling laws for LLM reasoning are well-documented, the theoretical mechanisms governing out-of-distribution (OOD) generalization remain elusive. We formalize reasoning via optimal transport, projecting discrete trajectories into a continuous metric space to quantify domain shifts using the Wasserstein-1 distance. Invoking Kantorovich duality, we bound OOD generalization via architectural Lipschitz continuity and functional approximation limits. This exposes two primary constraints. First, position-dependent attention (e.g., Absolute Positional Encoding) fails to preserve shift invariance, yielding an $Ω(1)$ Lipschitz constant and expected risk, whereas shift-invariant mechanisms (e.g., Rotary Embeddings) preserve equivariance and bound the error. Second, by mapping sequential backtracking to a Dyck-$k$ language, we establish a strict circuit depth lower bound for $\text{TC}^0$ Transformers. Scaling physical layer depth is necessary to avert representation collapse -- a constraint that scaling representation width cannot bypass due to irreducible approximation bounds in Barron spaces. Evaluations across 54 Transformer configurations on combinatorial search corroborate these bounds, demonstrating that generalization risk degrades monotonically with the Wasserstein domain shift.
- Abstract(参考訳): LLM推論の実証的なスケーリング法則は十分に文書化されているが、アウト・オブ・ディストリビューション(OOD)の一般化を規定する理論的メカニズムはいまだ解明されていない。
最適な輸送によって推論を定式化し、離散軌跡を連続距離空間に投影し、ワッサーシュタイン-1距離を用いて領域シフトを定量化する。
カントロビッチ双対性を呼び起こすと、アーキテクチャ上のリプシッツ連続性と汎関数近似極限によるOOD一般化が成立する。
これは2つの主要な制約を露呈する。
第一に、位置依存的な注意(例えば絶対位置エンコーディング)はシフト不変性を保たず、$Ω(1)$リプシッツ定数と期待されるリスクをもたらすが、シフト不変機構(例えばロータリー埋め込み)は等分散を保ち、誤差を束縛する。
第二に、シーケンシャルなバックトラックをDyck-$k$言語にマッピングすることで、$\text{TC}^0$ Transformersの厳しい回路深さを低くする。
物理層深さのスケーリングは、表現の崩壊を避けるために必要であり、表現幅のスケーリングはバロン空間の既約近似境界によってバイパスできないという制約である。
組合せ探索における54のトランスフォーマー構成に対する評価はこれらの境界を相関させ、一般化リスクはワッサーシュタイン領域シフトと単調に低下することを示した。
関連論文リスト
- Deforming the Trail: Baseline Quantum Circuitry for $\text{SU(2)}_k$ Lattice Gauge Theory [0.0]
我々は、ゲージ不変完備化の戦略を提供し、ユニタリティを計算ヒルベルト空間全体へ拡張する。
変形したプラケット作用素の物理的ヒルベルト空間次元は、定数係数の非変形的因子と同値であることを示す。
Q-変形は、量子回路合成の利点を提供する信頼性の高いトランケーションとして精査され続けている。
論文 参考訳(メタデータ) (2026-05-14T17:01:35Z) - Circuit Complexity of Hierarchical Knowledge Tracing and Implications for Log-Precision Transformers [2.688207424884465]
経験的に、再帰不変木で訓練されたトランスフォーマーエンコーダは、置換不変ショートカットに収束する。
これらの知見は, 階層構造に基づく事前知識追跡のための構造認識的目的と反復的メカニズムを動機付けている。
論文 参考訳(メタデータ) (2026-03-25T01:10:42Z) - Grokking as a Variance-Limited Phase Transition: Spectral Gating and the Epsilon-Stability Threshold [0.0]
一般化には、適応に固有のテクスタイニソトロピックな修正が必要であり、これは溶液の接空間にノイズを誘導する。
この研究は、モジュラー演算タスクにおけるAdamWのダイナミクスを分析し、一般化から記憶への遷移を制御するスペクトルゲーティングのメカニズムを明らかにする。
論文 参考訳(メタデータ) (2026-03-16T16:18:18Z) - Regularized Online RLHF with Generalized Bilinear Preferences [68.44113000390544]
一般的な嗜好を伴う文脈的オンラインRLHFの問題を考える。
一般化された双線形選好モデルを用いて、低ランクなスキュー対称行列による選好を捉える。
グリーディポリシーの双対ギャップは推定誤差の正方形によって有界であることを示す。
論文 参考訳(メタデータ) (2026-02-26T15:27:53Z) - Stability and Generalization of Push-Sum Based Decentralized Optimization over Directed Graphs [55.77845440440496]
プッシュベースの分散通信は、情報交換が非対称である可能性のある通信ネットワークの最適化を可能にする。
我々は、グラディエント・プッシュ(SGP)アルゴリズムのための統一的な一様安定性フレームワークを開発する。
重要な技術的要素は、2つの量に束縛された不均衡認識の一般化である。
論文 参考訳(メタデータ) (2026-02-24T05:32:03Z) - Riemannian Flow Matching for Disentangled Graph Domain Adaptation [51.98961391065951]
グラフドメイン適応(GDA)は典型的には、ユークリッド空間におけるグラフ埋め込みの整列に逆学習を使用する。
DisRFMは、埋め込みとフローベースのトランスポートを統一する幾何学的なGDAフレームワークである。
論文 参考訳(メタデータ) (2026-01-31T11:05:35Z) - Random-Matrix-Induced Simplicity Bias in Over-parameterized Variational Quantum Circuits [72.0643009153473]
本稿では,観測可能な期待値とパラメータ勾配の両方がシステムサイズに指数関数的に集中するHaar型普遍性クラスに,表現的変分アンサーゼが入ることを示す。
その結果、そのような回路によって誘導される仮説クラスは、近点関数の狭い族に高い確率で崩壊する。
テンソル-ネットワークベースおよびテンソル-ハイパーネットワークパラメータ化を含むテンソル構造VQCは、ハール型普遍性クラスの外にある。
論文 参考訳(メタデータ) (2026-01-05T08:04:33Z) - Variational Perturbation Theory in Open Quantum Systems for Efficient Steady State Computation [1.5689418447376589]
摂動理論は参照パラメータの周りの定常状態を拡張することができる。
擬逆数に依存し、収束半径が有限である。
擬似逆計算を不要とする2つの数値戦略を考案する。
論文 参考訳(メタデータ) (2025-03-31T18:00:01Z) - Simulating scalar field theories on quantum computers with limited
resources [62.997667081978825]
量子ビットコンピュータ上での格子スカラー場理論を実装するための量子アルゴリズムを提案する。
このアルゴリズムは、通常の対称性相と壊れた対称性相の両方において、幅広い入力パラメータの効率的な$phi4$状態の準備を可能にする。
論文 参考訳(メタデータ) (2022-10-14T17:28:15Z) - Barycentric-alignment and reconstruction loss minimization for domain
generalization [30.459247038765568]
本稿では,機械学習におけるドメイン一般化(DG)の理論と実践を推し進める。
本稿では,WBAE (Wasserstein Barycenter Auto-Encoder) という新しいDGアルゴリズムを提案する。
数値計算により,提案手法は複数のデータセット上で現在最先端のDGアルゴリズムより優れていることが示された。
論文 参考訳(メタデータ) (2021-09-04T16:57:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。