論文の概要: Actor-critic algorithms for fiber sampling problems
- arxiv url: http://arxiv.org/abs/2405.13950v1
- Date: Wed, 22 May 2024 19:33:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 20:23:46.675429
- Title: Actor-critic algorithms for fiber sampling problems
- Title(参考訳): ファイバーサンプリング問題に対するアクタ・クリティックアルゴリズム
- Authors: Ivan Gvozdanović, Sonja Petrović,
- Abstract要約: 本稿では,統計学と離散最適化による複雑な問題群に対するアクタ批判アルゴリズムを提案する。
この問題をマルコフ決定プロセスに変換し、アクター-批評家強化学習(RL)アルゴリズムを考案し、サンプリングに使用できる良い動きの集合を学習する。
アクター批判アルゴリズムは, ほぼ最適なサンプリングポリシーに収束することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose an actor-critic algorithm for a family of complex problems arising in algebraic statistics and discrete optimization. The core task is to produce a sample from a finite subset of the non-negative integer lattice defined by a high-dimensional polytope. We translate the problem into a Markov decision process and devise an actor-critic reinforcement learning (RL) algorithm to learn a set of good moves that can be used for sampling. We prove that the actor-critic algorithm converges to an approximately optimal sampling policy. To tackle complexity issues that typically arise in these sampling problems, and to allow the RL to function at scale, our solution strategy takes three steps: decomposing the starting point of the sample, using RL on each induced subproblem, and reconstructing to obtain a sample in the original polytope. In this setup, the proof of convergence applies to each subproblem in the decomposition. We test the method in two regimes. In statistical applications, a high-dimensional polytope arises as the support set for the reference distribution in a model/data fit test for a broad family of statistical models for categorical data. We demonstrate how RL can be used for model fit testing problems for data sets for which traditional MCMC samplers converge too slowly due to problem size and sparsity structure. To test the robustness of the algorithm and explore its generalization properties, we apply it to synthetically generated data of various sizes and sparsity levels.
- Abstract(参考訳): 本稿では,代数統計学と離散最適化による複雑な問題群に対するアクタ批判アルゴリズムを提案する。
中心となるタスクは、高次元のポリトープで定義される非負整数格子の有限部分集合からサンプルを生成することである。
この問題をマルコフ決定プロセスに変換し、アクター-批評家強化学習(RL)アルゴリズムを考案し、サンプリングに使用できる良い動きの集合を学習する。
アクター批判アルゴリズムは, ほぼ最適なサンプリングポリシーに収束することを示す。
これらのサンプリング問題に通常発生する複雑性問題に対処し、RLを大規模に機能させるために、我々のソリューション戦略は、サンプルの開始点を分解し、各誘導サブプロブレム上でRLを使用して、元のポリトープでサンプルを得る再構築という3つのステップを踏む。
この設定では、収束の証明は分解における各部分プロブレムに適用される。
私たちはこの方法を2つの制度でテストする。
統計的応用では、カテゴリーデータに対する幅広い統計モデルの家系に対するモデル/データ適合試験における参照分布の支持セットとして、高次元のポリトープが生じる。
従来のMCMCサンプリング器は,問題の大きさや空間構造が原因で収束が遅いデータセットに対して,RLがモデル適合性試験にどのように使用できるかを示す。
アルゴリズムのロバスト性を検証し、その一般化特性を探索するために、様々なサイズと空間レベルの合成データに適用する。
関連論文リスト
- Computational-Statistical Gaps in Gaussian Single-Index Models [77.1473134227844]
単次元モデル(Single-Index Models)は、植木構造における高次元回帰問題である。
我々は,統計的クエリ (SQ) と低遅延多項式 (LDP) フレームワークの両方において,計算効率のよいアルゴリズムが必ずしも$Omega(dkstar/2)$サンプルを必要とすることを示した。
論文 参考訳(メタデータ) (2024-03-08T18:50:19Z) - Optimal Multi-Distribution Learning [88.3008613028333]
マルチディストリビューション学習は、$k$の異なるデータ分散における最悪のリスクを最小限に抑える共有モデルを学ぶことを目指している。
本稿では, (d+k)/varepsilon2の順に, サンプルの複雑さを伴って, ヴァレプシロン最適ランダム化仮説を導出するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-08T16:06:29Z) - CS4ML: A general framework for active learning with arbitrary data based
on Christoffel functions [0.7366405857677226]
回帰問題における能動的学習のための一般的なフレームワークを紹介する。
本フレームワークは, 有限個のサンプリング測度と任意の非線形近似空間に基づいて, ランダムサンプリングを考察する。
本稿では,能動的学習が望ましい科学計算の応用に焦点を当てる。
論文 参考訳(メタデータ) (2023-06-01T17:44:19Z) - Approximating a RUM from Distributions on k-Slates [88.32814292632675]
与えられた分布を平均で最もよく近似するRUMを求める一般化時間アルゴリズムを求める。
我々の理論的結果は、実世界のデータセットに効果的でスケール可能なものを得るという、実践的な結果も得られます。
論文 参考訳(メタデータ) (2023-05-22T17:43:34Z) - Factorization of Multi-Agent Sampling-Based Motion Planning [72.42734061131569]
現代のロボティクスは、共有環境内で複数のエンボディエージェントを動作させることが多い。
標準的なサンプリングベースのアルゴリズムは、ロボットの関節空間における解の探索に使用できる。
我々は、因子化の概念をサンプリングベースアルゴリズムに統合し、既存の手法への最小限の変更しか必要としない。
本稿では, PRM* のサンプル複雑性の観点から解析的ゲインを導出し, RRG の実証結果を示す。
論文 参考訳(メタデータ) (2023-04-01T15:50:18Z) - Stochastic Constrained DRO with a Complexity Independent of Sample Size [38.56406595022129]
クルバック分散制約DRO問題の解法として,非凸損失と凸損失の両方に適用可能なアルゴリズムを提案し,解析する。
非損失に対する$$$ilon定常解を見つけるのにほぼ最適な複雑さを確立し、広いアプリケーションに最適な解を求めるのに最適なバッチの複雑さを確立します。
論文 参考訳(メタデータ) (2022-10-11T19:11:19Z) - Sampling Approximately Low-Rank Ising Models: MCMC meets Variational
Methods [35.24886589614034]
一般相互作用が$J$である超キューブ上の二次定値イジングモデルを考える。
我々の一般的な結果は、低ランクのIsingモデルに対する最初のサンプリングアルゴリズムを示唆している。
論文 参考訳(メタデータ) (2022-02-17T21:43:50Z) - Global Convergence of the ODE Limit for Online Actor-Critic Algorithms
in Reinforcement Learning [7.65995376636176]
アクター批判アルゴリズムは強化学習に広く用いられているが、オンラインデータサンプルの到着により数学的解析が困難である。
時間的再スケーリングにより,オンラインアクター批判アルゴリズムは,更新数が大きくなるにつれて,通常の微分方程式(ODE)に収束することが証明された。
我々の収束分析はアクター・クリティカル・アルゴリズムの学習率と探索率に比例するものであり、実際にアクター・クリティカル・アルゴリズムを実装するためのガイダンスを提供することができる。
論文 参考訳(メタデータ) (2021-08-19T12:37:58Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Exploiting Local Convergence of Quasi-Newton Methods Globally: Adaptive
Sample Size Approach [33.21301562890201]
準ニュートン法の超線形収束を利用する適応型サンプルサイズスキームを, 学習過程を通じて, 全世界的に活用する。
初期サンプルサイズが十分に大きく、準ニュートン法を用いて各サブプロブレムを解くと、サブプロブレムは超直線的に高速に解けることを示す。
論文 参考訳(メタデータ) (2021-06-10T01:08:51Z) - Non-Adaptive Adaptive Sampling on Turnstile Streams [57.619901304728366]
カラムサブセット選択、部分空間近似、射影クラスタリング、および空間サブリニアを$n$で使用するターンタイルストリームのボリュームに対する最初の相対エラーアルゴリズムを提供する。
我々の適応的なサンプリング手法は、様々なデータ要約問題に多くの応用をもたらしており、これは最先端を改善するか、より緩和された行列列モデルで以前に研究されただけである。
論文 参考訳(メタデータ) (2020-04-23T05:00:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。