Fugu-MT 論文翻訳(概要): Stochastic Gradient Descent with Adaptive Data

論文の概要: Stochastic Gradient Descent with Adaptive Data

arxiv url: http://arxiv.org/abs/2410.01195v1
Date: Wed, 2 Oct 2024 02:58:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-04 22:40:58.359859
Title: Stochastic Gradient Descent with Adaptive Data
Title（参考訳）: アダプティブデータを用いた確率的グラディエントDescence
Authors: Ethan Che, Jing Dong, Xin T. Tong,
Abstract要約: 勾配降下(SGD)は、オンライン学習シナリオにおいて特に有用である強力な最適化手法である。オペレーションリサーチにおけるポリシー最適化問題へのSGDの適用には、環境を変えてポリシー更新に使用するデータに影響を与えるという、明確な課題が伴う。過去の決定が生成したデータに与える影響は、勾配推定におけるバイアスを導入し、iidケースに存在しないオンライン学習の不安定性の潜在的な原因を示す。適応データによるSGDの収束速度は, 政策誘起力学の混合時間に係わる限り, 古典的イド設定とほとんど同様であることを示す。
参考スコア（独自算出の注目度）: 4.119418481809095
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Stochastic gradient descent (SGD) is a powerful optimization technique that is particularly useful in online learning scenarios. Its convergence analysis is relatively well understood under the assumption that the data samples are independent and identically distributed (iid). However, applying SGD to policy optimization problems in operations research involves a distinct challenge: the policy changes the environment and thereby affects the data used to update the policy. The adaptively generated data stream involves samples that are non-stationary, no longer independent from each other, and affected by previous decisions. The influence of previous decisions on the data generated introduces bias in the gradient estimate, which presents a potential source of instability for online learning not present in the iid case. In this paper, we introduce simple criteria for the adaptively generated data stream to guarantee the convergence of SGD. We show that the convergence speed of SGD with adaptive data is largely similar to the classical iid setting, as long as the mixing time of the policy-induced dynamics is factored in. Our Lyapunov-function analysis allows one to translate existing stability analysis of stochastic systems studied in operations research into convergence rates for SGD, and we demonstrate this for queueing and inventory management problems. We also showcase how our result can be applied to study the sample complexity of an actor-critic policy gradient algorithm.
Abstract（参考訳）: 確率勾配降下(SGD)は、オンライン学習シナリオにおいて特に有用である強力な最適化手法である。その収束解析は、データサンプルが独立で同一に分散している(iid)という仮定の下で比較的よく理解されている。しかし、運用研究における政策最適化問題へのSGDの適用には、環境を変えてポリシー更新に使用するデータに影響を与えるという、明確な課題が伴う。適応的に生成されたデータストリームは、非定常的で、もはや互いに独立せず、以前の決定の影響を受けないサンプルを含んでいる。過去の決定が生成したデータに与える影響は、勾配推定におけるバイアスを導入し、iidケースに存在しないオンライン学習の不安定性の潜在的な原因を示す。本稿では、SGDの収束を保証するために、適応的に生成されたデータストリームの簡単な基準を導入する。適応データによるSGDの収束速度は, 政策誘起力学の混合時間に係わる限り, 古典的イド設定とほとんど同様であることを示す。我々のリアプノフ関数解析は、SGDの収束率に関する操作研究で研究された確率システムの既存の安定性解析を変換し、キューおよび在庫管理問題に対してこれを実証する。また,アクタ-批判的ポリシー勾配アルゴリズムのサンプル複雑性を解析するために,我々の結果がどのように適用できるかを示す。

関連論文リスト

Not All Preferences Are Created Equal: Stability-Aware and Gradient-Efficient Alignment for Reasoning Models [52.48582333951919]
ポリシー更新の信号対雑音比を最大化することにより、アライメントの信頼性を高めるために設計された動的フレームワークを提案する。 SAGE(Stability-Aware Gradient Efficiency)は、モデル能力に基づいて候補プールをリフレッシュする粗いきめ細かいカリキュラムメカニズムを統合する。複数の数学的推論ベンチマークの実験により、SAGEは収束を著しく加速し、静的ベースラインを上回っていることが示された。
論文参考訳（メタデータ） (2026-02-01T12:56:10Z)
FedGPS: Statistical Rectification Against Data Heterogeneity in Federated Learning [103.45987800174724]
フェデレートラーニング(FL)は、データ不均一(data heterogeneity)として知られる重要な課題に直面し、モデルの性能と収束を損なう。統計分布と勾配情報をシームレスに統合する新しいフレームワークである textbfFedGPS を提案する。
論文参考訳（メタデータ） (2025-10-23T06:10:11Z)
Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文参考訳（メタデータ） (2025-10-01T12:29:32Z)
A Sample Efficient Conditional Independence Test in the Presence of Discretization [54.047334792855345]
離散化されたデータに直接条件付き独立テスト(CI)は、誤った結論につながる可能性がある。最近の進歩は、観測データをバイナライズすることで、潜伏変数間の適切なCI関係を推測することを目指している。そこで本研究では,バイナライゼーションプロセスに依存しないサンプル効率のCIテストを提案する。
論文参考訳（メタデータ） (2025-06-10T12:41:26Z)
PEAKS: Selecting Key Training Examples Incrementally via Prediction Error Anchored by Kernel Similarity [6.6157730528755065]
インクリメンタルデータ選択(IDS)問題では,サンプルが連続的なストリームとして到着し,完全なデータソースにアクセスせずに選択する必要がある。 IDSに適した効率的なデータ選択法であるPEAKS(Prediction Error Anchored by Kernel similarity)を提案する。 PEAKSが既存の選択戦略を一貫して上回っていることを示す。
論文参考訳（メタデータ） (2025-04-07T16:42:09Z)
CALF: A Conditionally Adaptive Loss Function to Mitigate Class-Imbalanced Segmentation [0.2902243522110345]
不均衡データセットは、医学診断のためのディープラーニング(DL)モデルのトレーニングにおいて課題となる。本稿では,DLトレーニングにおける不均衡データセットの条件を満たすために,新しい,統計的に駆動された条件適応型損失関数(CALF)を提案する。
論文参考訳（メタデータ） (2025-04-06T12:03:33Z)
Representation-based Reward Modeling for Efficient Safety Alignment of Large Language Model [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-13T06:40:34Z)
Adaptive Conformal Inference by Betting [51.272991377903274]
データ生成プロセスについて仮定することなく適応型共形推論の問題を考察する。適応型共形推論のための既存のアプローチは、オンライン勾配勾配の変種を用いたピンボール損失の最適化に基づいている。本稿では,パラメータフリーなオンライン凸最適化手法を利用した適応型共形推論手法を提案する。
論文参考訳（メタデータ） (2024-12-26T18:42:08Z)
Generalization Bounds of Surrogate Policies for Combinatorial Optimization Problems [53.03951222945921]
我々はスムーズな(摂動された)ポリシーを解析し、線形オラクルが使用する方向に対して制御されたランダムな摂動を付加する。我々の主な貢献は、過剰リスクを摂動バイアス、統計的推定誤差、最適化誤差に分解する一般化境界である。車両のスケジューリングやスムーズ化がトラクタブルトレーニングと制御された一般化の両方を可能にしていることを示す。
論文参考訳（メタデータ） (2024-07-24T12:00:30Z)
Adaptive Data Analysis for Growing Data [19.68686581348877]
適応的なデータの再利用は、過度な適合と統計的妥当性に関する問題を引き起こす。本稿では、動的データ設定における適応解析のための第一一般化境界について述べる。
論文参考訳（メタデータ） (2024-05-22T06:17:58Z)
Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文参考訳（メタデータ） (2024-05-09T09:08:09Z)
Pessimistic Causal Reinforcement Learning with Mediators for Confounded Offline Data [17.991833729722288]
我々は新しいポリシー学習アルゴリズム PESsimistic CAusal Learning (PESCAL) を提案する。我々のキーとなる観察は、システム力学における作用の効果を媒介する補助変数を組み込むことで、Q-関数の代わりに媒介物分布関数の下位境界を学習することは十分であるということである。提案するアルゴリズムの理論的保証とシミュレーションによる有効性の実証、および主要な配車プラットフォームからのオフラインデータセットを利用した実世界の実験を提供する。
論文参考訳（メタデータ） (2024-03-18T14:51:19Z)
Neural variational Data Assimilation with Uncertainty Quantification using SPDE priors [28.804041716140194]
ディープラーニングコミュニティの最近の進歩は、ニューラルネットワークと変分データ同化フレームワークを通じて、この問題に対処することができる。本研究では、部分微分方程式(SPDE)とガウス過程(GP)の理論を用いて状態の空間的および時間的共分散を推定する。
論文参考訳（メタデータ） (2024-02-02T19:18:12Z)
A Conditioned Unsupervised Regression Framework Attuned to the Dynamic Nature of Data Streams [0.0]
本稿では,制限付きラベル付きデータを用いたストリーミング環境の最適戦略を提案し,教師なし回帰のための適応手法を提案する。提案手法は,初期ラベルのスパースセットを活用し,革新的なドリフト検出機構を導入する。適応性を高めるために,Adaptive WINdowingアルゴリズムとRoot Mean Square Error (RMSE)に基づく誤り一般化アルゴリズムを統合する。
論文参考訳（メタデータ） (2023-12-12T19:23:54Z)
Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文参考訳（メタデータ） (2023-03-06T14:49:59Z)
Robust Fitted-Q-Evaluation and Iteration under Sequentially Exogenous Unobserved Confounders [16.193776814471768]
連続的に外生的でない共同設立者が存在する場合、ロバストな政策評価と政策最適化について検討する。本研究は,敗血症治療のシミュレーションと実世界の縦断医療データの両方において,複雑性境界,洞察,有効性を示す。
論文参考訳（メタデータ） (2023-02-01T18:40:53Z)
Unleashing the Power of Graph Data Augmentation on Covariate Distribution Shift [50.98086766507025]
本稿では,AIA(Adversarial Invariant Augmentation)という,シンプルで効率の良いデータ拡張戦略を提案する。 AIAは、拡張プロセス中に元の安定した特徴を同時に保存しながら、新しい環境をエクスポーレーションし、生成することを目的としている。
論文参考訳（メタデータ） (2022-11-05T07:55:55Z)
On the Sparse DAG Structure Learning Based on Adaptive Lasso [39.31370830038554]
適応NOTEARS[30]という,事前定義されたしきい値のないデータ駆動型DAG構造学習手法を開発した。適応型NOTEARSは特定の条件下でのオラクル特性を享受できることを示し, シミュレーションの結果, エッジのギャップをゼロに設定することなく, 提案手法の有効性を検証した。
論文参考訳（メタデータ） (2022-09-07T05:47:59Z)
Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文参考訳（メタデータ） (2022-03-16T21:17:03Z)
Provably Efficient Causal Reinforcement Learning with Confounded Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-06-22T14:49:33Z)
Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文参考訳（メタデータ） (2020-02-20T15:00:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。