論文の概要: Importance is Important: A Guide to Informed Importance Tempering
Methods
- arxiv url: http://arxiv.org/abs/2304.06251v1
- Date: Thu, 13 Apr 2023 04:04:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-14 15:39:55.742240
- Title: Importance is Important: A Guide to Informed Importance Tempering
Methods
- Title(参考訳): 重要度:インフォームド・インフォームド・インフォームド・インフルエンス・テンパリング・メソッドのガイド
- Authors: Guanxun Li, Aaron Smith, Quan Zhou
- Abstract要約: Informed importance tempering (IIT) は実装が容易なMCMCアルゴリズムであり、よく知られたメトロポリス・ハスティングスアルゴリズムの拡張と見なすことができる。
この研究は、多くの状況においてITIの使用を包括的かつ包括的にガイドする。
- 参考スコア(独自算出の注目度): 4.940218701735752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Informed importance tempering (IIT) is an easy-to-implement MCMC algorithm
that can be seen as an extension of the familiar Metropolis-Hastings algorithm
with the special feature that informed proposals are always accepted, and which
was shown in Zhou and Smith (2022) to converge much more quickly in some common
circumstances. This work develops a new, comprehensive guide to the use of IIT
in many situations. First, we propose two IIT schemes that run faster than
existing informed MCMC methods on discrete spaces by not requiring the
posterior evaluation of all neighboring states. Second, we integrate IIT with
other MCMC techniques, including simulated tempering, pseudo-marginal and
multiple-try methods (on general state spaces), which have been conventionally
implemented as Metropolis-Hastings schemes and can suffer from low acceptance
rates. The use of IIT allows us to always accept proposals and brings about new
opportunities for optimizing the sampler which are not possible under the
Metropolis-Hastings framework. Numerical examples illustrating our findings are
provided for each proposed algorithm, and a general theory on the complexity of
IIT methods is developed.
- Abstract(参考訳): Informed importance tempering (IIT) は、よく知られたMetropolis-Hastingsアルゴリズムの拡張と見なせる実装が容易なMCMCアルゴリズムである。
この研究は、多くの状況においてITIの使用に関する新しい包括的ガイドを開発する。
まず,既存の情報MCMC法よりも高速な2つのIIT方式を提案する。
第2に,従来メトロポリス・ハスティングス方式として実装され,受入率の低下に悩まされていた,模擬テンパリング,疑似マルジナル,マルチトライといった他のMCMC手法とIITを統合した。
IITを使うことで、常に提案を受け入れ、メトロポリス・ハスティングスフレームワークでは不可能なサンプルを最適化する新たな機会をもたらすことができます。
提案するアルゴリズムについて,本研究の数値的な例を示し,IIT法の複雑さに関する一般的な理論を考案した。
関連論文リスト
- Age-Based Scheduling for Mobile Edge Computing: A Deep Reinforcement
Learning Approach [58.911515417156174]
我々は情報時代(AoI)の新たな定義を提案し、再定義されたAoIに基づいて、MECシステムにおけるオンラインAoI問題を定式化する。
本稿では,システム力学の部分的知識を活用するために,PDS(Post-Decision State)を導入する。
また、PSDと深いRLを組み合わせることで、アルゴリズムの適用性、スケーラビリティ、堅牢性をさらに向上します。
論文 参考訳(メタデータ) (2023-12-01T01:30:49Z) - Semi-Infinitely Constrained Markov Decision Processes and Efficient
Reinforcement Learning [17.04643707688075]
通常のCMDPの場合のように、有限個の制約ではなく制約の連続性を考える。
我々はSI-CRLとSI-CPOと呼ぶSICMDPのための2つの強化学習アルゴリズムを考案した。
我々の知る限り、我々は、制約付き強化学習問題を解決するために、半無限プログラミング(SIP)のツールを最初に適用しました。
論文 参考訳(メタデータ) (2023-04-29T12:52:38Z) - Clustering with minimum spanning trees: How good can it be? [2.184775414778289]
最小スパンニングツリー(MST)は、パターン認識活動におけるデータセットの便利な表現を提供する。
本稿では,低次元空間における分割データクラスタリングタスクにおいて,それらが意味を持つ範囲を定量化する。
論文 参考訳(メタデータ) (2023-03-10T03:18:03Z) - Near-optimal Policy Identification in Active Reinforcement Learning [84.27592560211909]
AE-LSVI はカーネル化された最小二乗値 RL (LSVI) アルゴリズムの新しい変種であり、楽観主義と悲観主義を組み合わせて活発な探索を行う。
AE-LSVIは初期状態に対するロバスト性が必要な場合、様々な環境で他のアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-12-19T14:46:57Z) - On Leave-One-Out Conditional Mutual Information For Generalization [122.2734338600665]
残余条件付き相互情報(loo-CMI)の新しい尺度に基づく教師付き学習アルゴリズムのための情報理論の一般化境界を導出する。
他のCMI境界とは対照的に、我々のloo-CMI境界は容易に計算でき、古典的なout-out-out-cross-validationのような他の概念と関連して解釈できる。
ディープラーニングのシナリオにおいて予測された一般化ギャップを評価することにより,境界の質を実証的に検証する。
論文 参考訳(メタデータ) (2022-07-01T17:58:29Z) - Embed to Control Partially Observed Systems: Representation Learning with Provable Sample Efficiency [105.17746223041954]
部分的に観察されたマルコフ決定過程(POMDP)における強化学習は2つの課題に直面している。
しばしば、未来を予測するのに完全な歴史を要し、地平線と指数関数的にスケールするサンプルの複雑さを誘導する。
本稿では,2段階の表現を最適化しながら学習するETC(Embed to Control)という強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-26T16:34:46Z) - Common Information based Approximate State Representations in
Multi-Agent Reinforcement Learning [3.086462790971422]
我々は、分散化されたポリシーを構築可能な共通およびプライベートな状態表現を近似した汎用的な圧縮フレームワークを開発する。
その結果,「分散分散実行の分散学習」方式で,実用的に有用なディープMARLネットワーク構造の設計に光を当てた。
論文 参考訳(メタデータ) (2021-10-25T02:32:06Z) - Meta-Learning with Fewer Tasks through Task Interpolation [67.03769747726666]
現在のメタ学習アルゴリズムは多数のメタトレーニングタスクを必要としており、実際のシナリオではアクセスできない可能性がある。
タスクグラデーションを用いたメタラーニング(MLTI)により,タスクのペアをランダムにサンプリングし,対応する特徴やラベルを補間することにより,タスクを効果的に生成する。
実証的な実験では,提案する汎用MLTIフレームワークが代表的なメタ学習アルゴリズムと互換性があり,他の最先端戦略を一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2021-06-04T20:15:34Z) - A Two-Stage Masked LM Method for Term Set Expansion [50.59278236410461]
用語集合拡張(TSE:Term Set Expansion): 意味クラスからサンプル項の小さなシードセットが与えられ、そのクラスのより多くのメンバが見つかる。
パターンベースと分布的アプローチを組み合わせた新しいTSEアルゴリズムを提案する。
提案手法は最先端のTSEアルゴリズムより優れている。
論文 参考訳(メタデータ) (2020-05-03T12:06:06Z) - State-only Imitation with Transition Dynamics Mismatch [16.934888672659824]
イミテーションラーニング(Imitation Learning, IL)は、専門家の行動を活用することで、複雑な目標を達成するための訓練エージェントにとって一般的なパラダイムである。
本稿では,新しい状態のみのILアルゴリズムを提案する。
提案アルゴリズムは,専門家と模倣MDPの間に遷移力学ミスマッチが存在する場合,特に有効であることを示す。
論文 参考訳(メタデータ) (2020-02-27T02:27:46Z) - Reasoning About Generalization via Conditional Mutual Information [26.011933885798506]
我々は、Mutual Information (CMI) を用いて、入力がどの程度の精度で認識できるかを定量化する。
CMIのバウンダリは,VC次元,圧縮スキーム,差分プライバシー,その他の手法から得られることを示す。
次に、有界な CMI は様々な種類の一般化を意味することを示す。
論文 参考訳(メタデータ) (2020-01-24T18:13:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。