論文の概要: GL-LowPopArt: A Nearly Instance-Wise Minimax-Optimal Estimator for Generalized Low-Rank Trace Regression
- arxiv url: http://arxiv.org/abs/2506.03074v2
- Date: Wed, 04 Jun 2025 02:09:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 13:54:39.563491
- Title: GL-LowPopArt: A Nearly Instance-Wise Minimax-Optimal Estimator for Generalized Low-Rank Trace Regression
- Title(参考訳): GL-LowPopArt: 一般化低ランクトレース回帰のための極小最小推定器
- Authors: Junghyun Lee, Kyoungseok Jang, Kwang-Sung Jun, Milan Vojnović, Se-Young Yun,
- Abstract要約: GL-LowPopArtは、一般化された低ランクトレース回帰のためのカソーニスタイルの新たな推定器である。
我々は、既存の保証を越えながら、最先端の予測誤差境界を確立する。
GL-LowPopArtに基づく探索-then-commitアルゴリズムの解析により,新たな,潜在的に興味深い問題依存量を明らかにした。
- 参考スコア(独自算出の注目度): 32.35250152608318
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present `GL-LowPopArt`, a novel Catoni-style estimator for generalized low-rank trace regression. Building on `LowPopArt` (Jang et al., 2024), it employs a two-stage approach: nuclear norm regularization followed by matrix Catoni estimation. We establish state-of-the-art estimation error bounds, surpassing existing guarantees (Fan et al., 2019; Kang et al., 2022), and reveal a novel experimental design objective, $\mathrm{GL}(\pi)$. The key technical challenge is controlling bias from the nonlinear inverse link function, which we address by our two-stage approach. We prove a *local* minimax lower bound, showing that our `GL-LowPopArt` enjoys instance-wise optimality up to the condition number of the ground-truth Hessian. Applications include generalized linear matrix completion, where `GL-LowPopArt` achieves a state-of-the-art Frobenius error guarantee, and **bilinear dueling bandits**, a novel setting inspired by general preference learning (Zhang et al., 2024). Our analysis of a `GL-LowPopArt`-based explore-then-commit algorithm reveals a new, potentially interesting problem-dependent quantity, along with improved Borda regret bound than vectorization (Wu et al., 2024).
- Abstract(参考訳): 一般化された低ランクトレース回帰のための新しいカソーニスタイル推定器であるGL-LowPopArtを提案する。
LowPopArt` (Jang et al , 2024) に基づいて構築されており、核ノルム正規化と行列カトロニ推定という2段階のアプローチを採用している。
既存の保証(Fan et al , 2019; Kang et al , 2022)を超え、新しい実験設計目標である$\mathrm{GL}(\pi)$を明らかにする。
重要な技術的課題は、非線形逆リンク関数からバイアスを制御することである。
我々は *local* minimax lower bound を証明し、我々の ‘GL-LowPopArt’ が基底トラス Hessian の条件数までインスタンスワイズ最適性を持つことを示す。
応用例としては一般化線形行列補完があり、そこでは‘GL-LowPopArt’が最先端のフロベニウス誤差を保証する。
GL-LowPopArtをベースとした探索-then-commitアルゴリズムの解析により,ベクトル化よりもボルダの後悔が改善した(Wu et al , 2024)。
関連論文リスト
- Assouad, Fano, and Le Cam with Interaction: A Unifying Lower Bound Framework and Characterization for Bandit Learnability [71.82666334363174]
我々は,統計的推定と対話的意思決定において,情報理論の下限を統一する枠組みを開発する。
Emphinteractive Fano methodinteractive と呼ばれる新しい下界アプローチを提案する。
論文 参考訳(メタデータ) (2024-10-07T15:14:58Z) - Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning [55.65738319966385]
我々は、新しいオンラインアルゴリズム、反復的ナッシュポリシー最適化(INPO)を提案する。
従来の方法とは異なり、INPOは個々の応答に対する期待される勝利率を推定する必要性を回避している。
LLaMA-3-8BベースのSFTモデルで、INPOはAlpacaEval 2.0で42.6%、Arena-Hardで37.8%の勝利率を達成した。
論文 参考訳(メタデータ) (2024-06-30T08:00:34Z) - Horizon-Free and Instance-Dependent Regret Bounds for Reinforcement
Learning with General Function Approximation [26.277745106128197]
一般関数近似を用いた強化学習における長期計画地平線問題に対処するアルゴリズムを提案する。
導出残差は、線形混合MDPを対数因子まで特殊化する場合のミニマックス下限と一致するため、エンフシャープと見なされる。
このような地平線に依存しない、インスタンスに依存しない、鋭い後悔に満ちたヒンジの達成は、(i)新しいアルゴリズム設計と(ii)きめ細かい解析に基づいている。
論文 参考訳(メタデータ) (2023-12-07T17:35:34Z) - Bridging Discrete and Backpropagation: Straight-Through and Beyond [62.46558842476455]
本稿では,離散潜在変数の生成に関わるパラメータの勾配を近似する新しい手法を提案する。
本稿では,Hunの手法とODEを解くための2次数値法を統合することで,2次精度を実現するReinMaxを提案する。
論文 参考訳(メタデータ) (2023-04-17T20:59:49Z) - Tight Guarantees for Interactive Decision Making with the
Decision-Estimation Coefficient [51.37720227675476]
我々は、決定推定係数の新たな変種を導入し、それを用いて、3つの面における事前の作業を改善する新しい下界を導出する。
我々は同じ量でスケールした後悔について上界を与え、フォスター等における上界と下界の間のギャップの1つを除いて全てを閉じる。
この結果は、後悔のフレームワークとPACフレームワークの両方に適用され、我々が期待するいくつかの新しい分析とアルゴリズム設計技術を利用して、より広範な利用が期待できる。
論文 参考訳(メタデータ) (2023-01-19T18:24:08Z) - PopArt: Efficient Sparse Regression and Experimental Design for Optimal
Sparse Linear Bandits [29.097522376094624]
そこで我々はPopArtと呼ばれる単純で効率的なスパース線形推定法を提案する。
我々は, 粗い線形バンディットアルゴリズムを導出し, 美術品の状態に対する後悔の上界の改善を享受する。
論文 参考訳(メタデータ) (2022-10-25T19:13:20Z) - A Non-Asymptotic Moreau Envelope Theory for High-Dimensional Generalized
Linear Models [33.36787620121057]
ガウス空間の任意のクラスの線型予測器を示す新しい一般化境界を証明した。
私たちは、Zhou et al. (2021) の「最適化率」を直接回復するために、有限サンプルバウンドを使用します。
ローカライズされたガウス幅を用いた有界一般化の適用は、一般に経験的リスク最小化に対してシャープであることを示す。
論文 参考訳(メタデータ) (2022-10-21T16:16:55Z) - Provable Model-based Nonlinear Bandit and Reinforcement Learning: Shelve
Optimism, Embrace Virtual Curvature [61.22680308681648]
決定論的報酬を有する1層ニューラルネットバンディットにおいても,グローバル収束は統計的に難解であることを示す。
非線形バンディットとRLの両方に対して,オンラインモデル学習者による仮想アセンジ(Virtual Ascent with Online Model Learner)というモデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-08T12:41:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。