論文の概要: Matrix-Decoupled Concentration for Autoregressive Sequences: Dimension-Free Guarantees for Sparse Long-Context Rewards
- arxiv url: http://arxiv.org/abs/2605.06017v1
- Date: Thu, 07 May 2026 11:12:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.715078
- Title: Matrix-Decoupled Concentration for Autoregressive Sequences: Dimension-Free Guarantees for Sparse Long-Context Rewards
- Title(参考訳): 自己回帰配列に対するマトリックスデカップリング型濃度:疎長期リワードのための次元自由保証
- Authors: Pei-Sen Li,
- Abstract要約: 自己回帰型大規模言語モデルにおけるシーケンスレベル評価のための厳密な集中境界の確立方法を示す。
厳密な因果関係の枠組み内で報酬の座標的間隔を保存することにより、長文推論の安定性に対する厳密な数学的正当性を提供する。
- 参考スコア(独自算出の注目度): 0.36260136172126667
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sequence-level evaluations in autoregressive Large Language Models (LLMs) rely on highly dependent token generation. Establishing tight concentration bounds for these processes remains a challenge due to two fundamental bottlenecks in existing frameworks: (i) classical inequalities typically separate dependency structures from target sensitivities, leading to a scalar collapse that inflates the variance proxy to a suboptimal $\mathcal{O}(N)$ for sparse terminal rewards; (ii) conversely, while certain spatial methods achieve tighter bounds, they lack the strictly causal filtration required by sequential generation, rendering them inapplicable to the autoregressive setting. To resolve both bottlenecks, we establish a sharp McDiarmid-type inequality for dependent sequences, governed strictly by the exact matrix-vector multiplication of the causal dependency resolvent and the target sensitivity vector. This Matrix-Decoupled Concentration (MDC) framework natively recovers optimal constants for Markov chains and exploits directed $d$-separation to yield order-optimal bounds for causal trees. Crucially, by exactly preserving the coordinate-wise sparsity of rewards within a strictly causal framework, MDC mathematically prevents scalar collapse, guaranteeing a dimension-free $\mathcal{O}(1)$ variance proxy and providing a rigorous mathematical justification for the stability of long-context reasoning.
- Abstract(参考訳): 自己回帰型大規模言語モデル(LLM)におけるシーケンスレベルの評価は、高依存性のトークン生成に依存する。
これらのプロセスの厳密な集中境界を確立することは、既存のフレームワークに2つの基本的なボトルネックがあるため、依然として課題である。
(i)古典的不等式は、通常、対象の感度から依存構造を分離し、スパース端末報酬に対して、分散プロキシを最適な$\mathcal{O}(N)$に膨らませるスカラー崩壊を引き起こす。
(II) 逆に空間的手法はより厳密な境界を達成できるが, 逐次生成に必要な因果フィルタリングが欠如しており, 自己回帰的設定には適用できない。
両方のボトルネックを解決するために、因果依存性分解剤とターゲット感度ベクトルの正確な行列ベクトル乗法によって厳密に支配される従属配列に対する鋭いマクダイアルミド型不等式を確立する。
このMDC(Matrix-Decoupled concentration)フレームワークはマルコフ連鎖の最適定数を自然に回収し、因果樹の順序-最適境界を得るために$d$-セパレーションを利用する。
重要なことに、厳密な因果的枠組み内で報酬の座標的間隔を正確に保存することにより、MDCはスカラー崩壊を数学的に防止し、次元自由な$\mathcal{O}(1)$分散プロキシを保証し、長文推論の安定性に対する厳密な数学的正当化を提供する。
関連論文リスト
- Model Compression with Exact Budget Constraints via Riemannian Manifolds [39.54576236079211]
トータルコスト予算の下で各NグループにKオプションの1つを割り当てることは、効率的なAIにおいて繰り返し発生する問題である。
我々は、ソフトマックス緩和の下で、予算制約がロジット空間における滑らかなリーマン多様体を異常に単純な幾何学で定義することを示す新しいアプローチを示す。
これらの特性に基づいて、接射影、二分探索リトラクション、運動量輸送を標準とするリーマン制約最適化(RCO)を提案する。
論文 参考訳(メタデータ) (2026-05-01T13:30:23Z) - Adaptive Threshold-Driven Continuous Greedy Method for Scalable Submodular Optimization [0.0]
マットロイド制約の下でのサブモジュールは、センシング、データマージ、アクティブラーニング、リソース割り当てなどの応用において、最適化の基本的な問題である。
textitATCG(underlineAdaptive underlineThresholded underlineThresholded underlineThresholded underlineGreedy)を提案する。
CIFAR-10動物データセットを用いたクラスバランス型プロトタイプ選択問題の実験
論文 参考訳(メタデータ) (2026-04-03T19:32:39Z) - Regularized Online RLHF with Generalized Bilinear Preferences [68.44113000390544]
一般的な嗜好を伴う文脈的オンラインRLHFの問題を考える。
一般化された双線形選好モデルを用いて、低ランクなスキュー対称行列による選好を捉える。
グリーディポリシーの双対ギャップは推定誤差の正方形によって有界であることを示す。
論文 参考訳(メタデータ) (2026-02-26T15:27:53Z) - Stability and Generalization of Push-Sum Based Decentralized Optimization over Directed Graphs [55.77845440440496]
プッシュベースの分散通信は、情報交換が非対称である可能性のある通信ネットワークの最適化を可能にする。
我々は、グラディエント・プッシュ(SGP)アルゴリズムのための統一的な一様安定性フレームワークを開発する。
重要な技術的要素は、2つの量に束縛された不均衡認識の一般化である。
論文 参考訳(メタデータ) (2026-02-24T05:32:03Z) - MASPO: Unifying Gradient Utilization, Probability Mass, and Signal Reliability for Robust and Sample-Efficient LLM Reasoning [16.012761588513026]
Reinforcement Learning with Verifiable Rewards (RLVR)アルゴリズムは、剛性、均一性、および対称性のある信頼領域機構に依存している。
本稿では,これらの3次元を調和させる統合フレームワークであるMass-Adaptive Soft Policy Optimization (MASPO)を提案する。
MASPOは、勾配ユーティリティを最大化するために、微分可能なソフトガウスゲーティングと、確率スペクトル間の探索のバランスをとる質量適応リミッタと、信号の信頼性を調整するための非対称リスクコントローラを統合している。
論文 参考訳(メタデータ) (2026-02-19T17:05:20Z) - Row-stochastic matrices can provably outperform doubly stochastic matrices in decentralized learning [10.686669655748702]
分散学習は、不均一ノード重みが$$の重み付きグローバル損失を伴うことが多い。
重み付きヒルベルト空間フレームワーク $L2(mathbbRd)$ を開発し、ユークリッド解析より厳密な収束率を得る。
そして、より小さなスペクトルギャップであっても、行確率的設計がより高速に収束する十分な条件を導出する。
論文 参考訳(メタデータ) (2025-11-24T02:58:38Z) - Graph-based Clustering Revisited: A Relaxation of Kernel $k$-Means Perspective [73.18641268511318]
本稿では,クラスタリング結果を導出するための正規制約のみを緩和するグラフベースのクラスタリングアルゴリズムを提案する。
二重制約を勾配に変換するために、非負の制約をクラス確率パラメータに変換する。
論文 参考訳(メタデータ) (2025-09-23T09:14:39Z) - NDCG-Consistent Softmax Approximation with Accelerated Convergence [67.10365329542365]
本稿では,ランキングの指標と直接一致した新たな損失定式化を提案する。
提案したRG損失を高効率な Alternating Least Squares (ALS) 最適化手法と統合する。
実世界のデータセットに対する実証的な評価は、我々のアプローチが同等または上位のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-06-11T06:59:17Z) - An Accelerated Alternating Partial Bregman Algorithm for ReLU-based Matrix Decomposition [0.0]
本稿では,非負行列上に補正されたスパース低ランク特性について検討する。
本稿では,クラスタリングと圧縮タスクに有用な構造を取り入れた新しい正規化項を提案する。
我々は、任意の$Lge 1$に対して常に持つ$L$-smoothプロパティを維持しながら、対応する閉形式解を導出する。
論文 参考訳(メタデータ) (2025-03-04T08:20:34Z) - Distributional Robustness and Regularization in Reinforcement Learning [62.23012916708608]
経験値関数の新しい正規化器を導入し、ワッサーシュタイン分布のロバストな値関数を下限とすることを示す。
強化学習における$textitexternalな不確実性に対処するための実用的なツールとして正規化を使用することを提案する。
論文 参考訳(メタデータ) (2020-03-05T19:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。