論文の概要: Nearly Instance-Optimal Parameter Recovery from Many Trajectories via Hellinger Localization
- arxiv url: http://arxiv.org/abs/2510.06434v1
- Date: Tue, 07 Oct 2025 20:12:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.186561
- Title: Nearly Instance-Optimal Parameter Recovery from Many Trajectories via Hellinger Localization
- Title(参考訳): Hellingerの局在化による多くの軌道からのほぼ最適パラメータの復元
- Authors: Eliot Shekhtman, Yichen Zhou, Ingvar Ziemann, Nikolai Matni, Stephen Tu,
- Abstract要約: 我々は,Hellingerのローカライゼーションフレームワークを通じて,多軌道設定におけるインスタンス最適率の範囲を拡張した。
4つのケーススタディでフレームワークをインスタンス化します。
我々の限界は、標準値よりも大幅に改善され、通常値からインスタンス最適値にほぼ一致する。
- 参考スコア(独自算出の注目度): 19.74516565968901
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning from temporally-correlated data is a core facet of modern machine learning. Yet our understanding of sequential learning remains incomplete, particularly in the multi-trajectory setting where data consists of many independent realizations of a time-indexed stochastic process. This important regime both reflects modern training pipelines such as for large foundation models, and offers the potential for learning without the typical mixing assumptions made in the single-trajectory case. However, instance-optimal bounds are known only for least-squares regression with dependent covariates; for more general models or loss functions, the only broadly applicable guarantees result from a reduction to either i.i.d. learning, with effective sample size scaling only in the number of trajectories, or an existing single-trajectory result when each individual trajectory mixes, with effective sample size scaling as the full data budget deflated by the mixing-time. In this work, we significantly broaden the scope of instance-optimal rates in multi-trajectory settings via the Hellinger localization framework, a general approach for maximum likelihood estimation. Our method proceeds by first controlling the squared Hellinger distance at the path-measure level via a reduction to i.i.d. learning, followed by localization as a quadratic form in parameter space weighted by the trajectory Fisher information. This yields instance-optimal bounds that scale with the full data budget under a broad set of conditions. We instantiate our framework across four diverse case studies: a simple mixture of Markov chains, dependent linear regression under non-Gaussian noise, generalized linear models with non-monotonic activations, and linear-attention sequence models. In all cases, our bounds nearly match the instance-optimal rates from asymptotic normality, substantially improving over standard reductions.
- Abstract(参考訳): 時間的関連データからの学習は、現代の機械学習の中核的な側面である。
しかし、シーケンシャルラーニングに対する我々の理解は、特にデータが時間インデクシングされた確率過程の多くの独立した実現から成り立つマルチトラジェクトリ・セッティングにおいて不完全なままである。
この重要な体制はどちらも大きな基礎モデルのような近代的な訓練パイプラインを反映しており、単一軌道の場合の典型的な混合仮定なしで学習する可能性を提供します。
しかし、インスタンス最適境界は、従属共変量を持つ最小二乗回帰に対してのみ知られており、より一般的なモデルや損失関数では、学習の縮小による、すなわち、軌道の個数でのみ効果的なサンプルサイズスケーリング、または個々の軌道が混合されたときに既存の単軌道スケール、混合時間でデフレーションされる全データ予算で有効なサンプルサイズスケーリングのどちらかによって、広く適用できる唯一の保証である。
本研究では,最大推定法であるHellingerローカライゼーションフレームワークを用いて,マルチトラジェクトリ設定におけるインスタンス最適率の範囲を大幅に拡大する。
提案手法は,まず経路測定レベルの正方形ヘリンジャー距離を1次学習に還元し,次に軌道フィッシャー情報により重み付けされたパラメータ空間の2次形式として局所化する。
これにより、幅広い条件の下で完全なデータ予算でスケールするインスタンス-最適境界が得られる。
我々は、マルコフ連鎖の単純な混合、非ガウス雑音下での線形回帰、非単調な活性化を伴う一般化線形モデル、線形アテンションシーケンスモデルという4つの異なるケーススタディの枠組みをインスタンス化する。
いずれの場合も、我々の境界は漸近的正規性からのインスタンス最適率とほぼ一致し、標準的還元よりも大幅に改善される。
関連論文リスト
- Generalized Linear Bandits: Almost Optimal Regret with One-Pass Update [60.414548453838506]
非線形リンク関数を組み込んで古典線形モデルを拡張したコンテキスト型多武装バンディットフレームワークである一般化線形バンディット問題(GLB)について検討する。
GLBは現実世界のシナリオに広く適用できるが、その非線形性は計算効率と統計効率の両方を達成する上で大きな課題をもたらす。
本稿では,$mathcalO(1)$時間と1ラウンドあたりの空間複雑度をほぼ最適に再現するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-07-16T02:24:21Z) - Discretization-free Multicalibration through Loss Minimization over Tree Ensembles [22.276913140687725]
深度2の決定木をアンサンブルする離散化のない多重校正法を提案する。
本アルゴリズムは,データ分布が損失飽和と呼ばれる技術的条件を満たすことを前提として,マルチキャリブレーションを確実に達成する。
論文 参考訳(メタデータ) (2025-05-23T03:29:58Z) - Learning with Shared Representations: Statistical Rates and Efficient Algorithms [13.643155483461028]
潜在共有表現による協調学習により、異種クライアントは、サンプルサイズを減らしながら、パフォーマンスを向上したパーソナライズされたモデルをトレーニングできる。
経験的成功と広範な研究にもかかわらず、統計誤差率の理論的理解は、低次元線型部分空間に制約された共有表現でさえも不完全である。
論文 参考訳(メタデータ) (2024-09-07T21:53:01Z) - Sampling from Gaussian Process Posteriors using Stochastic Gradient
Descent [43.097493761380186]
勾配アルゴリズムは線形系を解くのに有効な方法である。
最適値に収束しない場合であっても,勾配降下は正確な予測を導出することを示す。
実験的に、勾配降下は十分に大規模または不条件の回帰タスクにおいて最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-06-20T15:07:37Z) - Aiming towards the minimizers: fast convergence of SGD for
overparametrized problems [25.077446336619378]
本稿では,勾配法と同一のケース複雑性を有する勾配法を提案する。
既存の保証は全て勾配法で小さなステップを踏む必要があり、結果として収束速度ははるかに遅くなる。
我々は,線形出力層を用いた十分に広いフィードフォワードニューラルネットワークのトレーニングにおいて,この条件が成り立つことを実証した。
論文 参考訳(メタデータ) (2023-06-05T05:21:01Z) - Instance-Dependent Generalization Bounds via Optimal Transport [51.71650746285469]
既存の一般化境界は、現代のニューラルネットワークの一般化を促進する重要な要因を説明することができない。
データ空間における学習予測関数の局所リプシッツ正則性に依存するインスタンス依存の一般化境界を導出する。
ニューラルネットワークに対する一般化境界を実験的に解析し、有界値が有意義であることを示し、トレーニング中の一般的な正規化方法の効果を捉える。
論文 参考訳(メタデータ) (2022-11-02T16:39:42Z) - The Role of Pseudo-labels in Self-training Linear Classifiers on High-dimensional Gaussian Mixture Data [3.1274367448459253]
自己学習 (ST) は単純だが効果的な半教師あり学習法である。
我々は,STが反復数に応じて異なる方法で一般化を改善することを示す。
論文 参考訳(メタデータ) (2022-05-16T15:02:44Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z) - Online stochastic gradient descent on non-convex losses from
high-dimensional inference [2.2344764434954256]
勾配降下(SGD)は高次元タスクにおける最適化問題に対する一般的なアルゴリズムである。
本稿では,データから非自明な相関関係を推定する。
本稿では、位相探索や一般化モデルの推定といった一連のタスクに適用することで、我々のアプローチを説明する。
論文 参考訳(メタデータ) (2020-03-23T17:34:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。