論文の概要: Constrained Bayesian Experimental Design via Online Planning
- arxiv url: http://arxiv.org/abs/2605.26990v1
- Date: Tue, 26 May 2026 13:13:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:42.17744
- Title: Constrained Bayesian Experimental Design via Online Planning
- Title(参考訳): オンライン計画による制約ベイズ実験設計
- Authors: Yujia Guo, Daolang Huang, Xinyu Zhang, Sammie Katt, Samuel Kaski, Ayush Bharti,
- Abstract要約: ベイズ実験設計(Bayesian experimental design, BED)は、シーケンシャル実験のデータ効率設計のための原則的なフレームワークである。
既存のBED手法は、予算の制限、様々なコスト、物理的な制約によって、現実のタスクに固有の動的な制約に適応できない。
本稿では,オンラインマルチステップルックアヘッド計画とアモートされたポリシーと後部ネットワークのオフライン事前学習を組み合わせることで,実験設計の制約付き最適化を可能にする新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 26.738280001310937
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bayesian experimental design (BED) is a principled framework for data-efficient design of sequential experiments. However, existing BED methods are unable to adapt to dynamic constraints inherent in real-world tasks due to budget limitations, varying costs, or physical constraints that restrict how designs evolve over time. In this paper, we introduce a novel approach to BED that enables constrained optimization of experimental designs by combining offline pre-training of an amortized policy and a posterior network with online multi-step lookahead planning using scenario trees. We empirically demonstrate that our method yields substantially more informative design sequences than existing methods across a range of constrained BED tasks, while incurring only a modest additional computational overhead.
- Abstract(参考訳): ベイズ実験設計(Bayesian experimental design, BED)は、シーケンシャル実験のデータ効率設計のための原則的なフレームワークである。
しかし、既存のBED手法は、予算の制限、様々なコスト、時間とともに設計がどう進化するかを制限する物理的な制約によって、現実世界のタスクに固有の動的な制約に適応できない。
本稿では,暗黙のポリシーと後部ネットワークのオフライン事前学習と,シナリオツリーを用いたオンライン多段階ルックアヘッド計画を組み合わせることで,実験設計の制約付き最適化を可能にする新しいアプローチを提案する。
提案手法は, 制約付きBEDタスクにまたがる既存の手法よりも, 計算オーバーヘッドをわずかに減らしながら, はるかに情報量の多い設計シーケンスが得られることを実証的に実証した。
関連論文リスト
- Interaction-Grounded Learning for Contextual Markov Decision Processes with Personalized Feedback [59.287761696290865]
本稿では,個人化されたフィードバックを伴って,文脈的マルコフ決定プロセス(MDP)のサブ線形後悔保証を実現する計算効率の高いアルゴリズムを提案する。
提案手法の有効性を,合成エピソードMDPと実世界のユーザ予約データセットの両方を用いた実験を通じて,マルチターンインタラクションからパーソナライズされた目的を学習する際の有効性を示す。
論文 参考訳(メタデータ) (2026-02-09T06:29:54Z) - Adaptive Neighborhood-Constrained Q Learning for Offline Reinforcement Learning [52.03884701766989]
オフライン強化学習(RL)アルゴリズムは、通常、アクション選択に制約を課す。
本稿では,Bellmanターゲットにおける行動選択を,データセットアクションの近傍の結合に制限する新しい地区制約を提案する。
我々は,この制約を満たす目標動作を用いてQ学習を行うための,単純で効果的なアルゴリズムであるAdaptive Neighborhood-Constrained Q Learning(ANQ)を開発した。
論文 参考訳(メタデータ) (2025-11-04T13:42:05Z) - Training Deep Learning Models with Norm-Constrained LMOs [56.00317694850397]
線形最小化オラクル(LMO)を用いて問題の幾何学に適応する新しいアルゴリズム群を提案する。
我々は,Adamに頼らずに,我々のアルゴリズムであるScionを用いたナノGPTトレーニングの大幅な高速化を示す。
論文 参考訳(メタデータ) (2025-02-11T13:10:34Z) - Optimization-Driven Adaptive Experimentation [7.948144726705323]
実世界の実験には、バッチで遅延したフィードバック、非定常性、複数の目的と制約、そして(時には)パーソナライゼーションが含まれる。
これらの課題にプロブレム単位で対処するための適応的手法の調整は不可能であり、静的設計はデファクトスタンダードのままである。
本稿では,多種多様な目的,制約,統計的手順を柔軟に組み込む数学的プログラミングの定式化について述べる。
論文 参考訳(メタデータ) (2024-08-08T16:29:09Z) - Adaptive Experimentation When You Can't Experiment [55.86593195947978]
本稿では,Emphcon founded the pure exploration transductive linear bandit (textttCPET-LB) problem。
オンラインサービスは、ユーザーを特定の治療にインセンティブを与える、適切にランダム化された励ましを利用することができる。
論文 参考訳(メタデータ) (2024-06-15T20:54:48Z) - Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - Policy-Based Bayesian Experimental Design for Non-Differentiable
Implicit Models [25.00242490764664]
深層適応設計のための強化学習(Reinforcement Learning for Deep Adaptive Design, RL-DAD)は、非微分不可能な暗黙モデルに対するシミュレーションに基づく最適実験設計手法である。
RL-DADは、事前履歴をオフラインで実験するためにマッピングし、オンライン実行中に素早くデプロイできる。
論文 参考訳(メタデータ) (2022-03-08T18:47:01Z) - Optimizing Sequential Experimental Design with Deep Reinforcement
Learning [7.589363597086081]
我々は、ポリシーを最適化する問題は、マルコフ決定プロセス(MDP)の解決に還元できることを示した。
また,本手法はデプロイ時に計算効率が高く,連続的かつ離散的な設計空間上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-02-02T00:23:05Z) - Implicit Deep Adaptive Design: Policy-Based Experimental Design without
Likelihoods [24.50829695870901]
暗黙のDeep Adaptive Design (iDAD) は暗黙のモデルでリアルタイムで適応実験を行う新しい手法である。
iDADは、設計ポリシーネットワークを事前学習することで、ベイズ最適設計(BOED)のコストを償却する。
論文 参考訳(メタデータ) (2021-11-03T16:24:05Z) - Deep Adaptive Design: Amortizing Sequential Bayesian Experimental Design [11.414086057582324]
本稿では,逐次適応実験のコストを補正する手法であるDeep Adaptive Design (DAD)を紹介する。
DADが実験設計のプロセスに成功したことを実証し、いくつかの問題に対する代替戦略を上回ります。
論文 参考訳(メタデータ) (2021-03-03T14:43:48Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。