論文の概要: Step-DAD: Semi-Amortized Policy-Based Bayesian Experimental Design
- arxiv url: http://arxiv.org/abs/2507.14057v1
- Date: Fri, 18 Jul 2025 16:39:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-21 20:43:26.360152
- Title: Step-DAD: Semi-Amortized Policy-Based Bayesian Experimental Design
- Title(参考訳): Step-DAD:半改質政策に基づくベイズ実験設計
- Authors: Marcel Hedman, Desi R. Ivanova, Cong Guan, Tom Rainforth,
- Abstract要約: ステップワイド・ディープ・アダプティブ・デザイン (Step-DAD) と呼ばれるベイズ実験設計 (BED) への準同化・政策ベースアプローチを開発する。
我々は,現在最先端のBED法と比較して,Step-DADが優れた意思決定と堅牢性を示すことを示す。
- 参考スコア(独自算出の注目度): 16.679918026629036
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We develop a semi-amortized, policy-based, approach to Bayesian experimental design (BED) called Stepwise Deep Adaptive Design (Step-DAD). Like existing, fully amortized, policy-based BED approaches, Step-DAD trains a design policy upfront before the experiment. However, rather than keeping this policy fixed, Step-DAD periodically updates it as data is gathered, refining it to the particular experimental instance. This test-time adaptation improves both the flexibility and the robustness of the design strategy compared with existing approaches. Empirically, Step-DAD consistently demonstrates superior decision-making and robustness compared with current state-of-the-art BED methods.
- Abstract(参考訳): 我々は,段階的深層適応設計 (Step-DAD) と呼ばれるベイズ実験設計 (BED) に準同型でポリシーに基づくアプローチを開発した。
既存の、完全に償却されたポリシーベースのBEDアプローチと同様に、Step-DADは実験の前に設計ポリシーをトレーニングする。
しかし、このポリシーを固定する代わりに、Step-DADはデータを収集するときに定期的に更新し、特定の実験インスタンスに精算する。
このテストタイム適応は、既存のアプローチと比較して、設計戦略の柔軟性と堅牢性の両方を改善します。
実証的には、Step-DADは現在の最先端のBED手法と比較して、優れた意思決定と堅牢性を示している。
関連論文リスト
- Improving DAPO from a Mixed-Policy Perspective [0.0]
本稿では,動的sAmpling Policy Optimization (DAPO)アルゴリズムに2つの新しい修正を加えている。
まず、政治以外の経験を提供するための、事前訓練された安定した指導方針を取り入れた手法を提案する。
次に、このアイデアを拡張してゼロ逆サンプルを再利用し、しばしば動的サンプリング戦略によって破棄される。
論文 参考訳(メタデータ) (2025-07-17T09:12:09Z) - Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [56.92178753201331]
平均逆無限水平POMDPを未知の遷移モデルで扱う。
この障壁を克服する斬新でシンプルな推定器を提示する。
論文 参考訳(メタデータ) (2025-01-30T22:29:41Z) - Aligning Few-Step Diffusion Models with Dense Reward Difference Learning [81.85515625591884]
Stepwise Diffusion Policy Optimization (SDPO) は、数ステップの拡散モデルに適したアライメント手法である。
SDPOは、すべての中間ステップに密集した報酬フィードバックを組み込んで、すべてのデノナイジングステップを一貫したアライメントを確保する。
SDPOは、様々なステップ構成にまたがる報酬ベースのアライメントにおいて、従来手法よりも一貫して優れています。
論文 参考訳(メタデータ) (2024-11-18T16:57:41Z) - Theoretically Guaranteed Policy Improvement Distilled from Model-Based
Planning [64.10794426777493]
モデルベース強化学習(RL)は、様々な連続制御タスクにおいて顕著な成功を収めた。
近年のプラクティスでは、最適化されたアクションシーケンスをトレーニングフェーズ中にRLポリシーに蒸留する傾向にある。
我々は,モデルに基づく計画から政策への蒸留アプローチを開発する。
論文 参考訳(メタデータ) (2023-07-24T16:52:31Z) - Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z) - Policy-Based Bayesian Experimental Design for Non-Differentiable
Implicit Models [25.00242490764664]
深層適応設計のための強化学習(Reinforcement Learning for Deep Adaptive Design, RL-DAD)は、非微分不可能な暗黙モデルに対するシミュレーションに基づく最適実験設計手法である。
RL-DADは、事前履歴をオフラインで実験するためにマッピングし、オンライン実行中に素早くデプロイできる。
論文 参考訳(メタデータ) (2022-03-08T18:47:01Z) - Policy Evaluation for Temporal and/or Spatial Dependent Experiments [44.03746192651919]
本研究の目的は,技術系企業が実施する政策と,複雑な時間的・空間的依存実験において得られる成果の因果関係を確立することである。
本稿では,時間的・空間的依存を特徴とする状況において,時間的・時間的変動係数決定過程(VCDP)モデルを提案する。
論文 参考訳(メタデータ) (2022-02-22T13:38:14Z) - Implicit Deep Adaptive Design: Policy-Based Experimental Design without
Likelihoods [24.50829695870901]
暗黙のDeep Adaptive Design (iDAD) は暗黙のモデルでリアルタイムで適応実験を行う新しい手法である。
iDADは、設計ポリシーネットワークを事前学習することで、ベイズ最適設計(BOED)のコストを償却する。
論文 参考訳(メタデータ) (2021-11-03T16:24:05Z) - Deep Adaptive Design: Amortizing Sequential Bayesian Experimental Design [11.414086057582324]
本稿では,逐次適応実験のコストを補正する手法であるDeep Adaptive Design (DAD)を紹介する。
DADが実験設計のプロセスに成功したことを実証し、いくつかの問題に対する代替戦略を上回ります。
論文 参考訳(メタデータ) (2021-03-03T14:43:48Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。