論文の概要: ActiveCQ: Active Estimation of Causal Quantities
- arxiv url: http://arxiv.org/abs/2509.24293v1
- Date: Mon, 29 Sep 2025 05:14:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.757093
- Title: ActiveCQ: Active Estimation of Causal Quantities
- Title(参考訳): ActiveCQ: 因果量のアクティブ推定
- Authors: Erdun Gao, Dino Sejdinovic,
- Abstract要約: 因果量の推定(CQ)は通常、大きなデータセットを必要とする。
この課題は、サンプル効率のよいアクティブラーニング戦略の重要性を強調している。
- 参考スコア(独自算出の注目度): 17.56614967209438
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Estimating causal quantities (CQs) typically requires large datasets, which can be expensive to obtain, especially when measuring individual outcomes is costly. This challenge highlights the importance of sample-efficient active learning strategies. To address the narrow focus of prior work on the conditional average treatment effect, we formalize the broader task of Actively estimating Causal Quantities (ActiveCQ) and propose a unified framework for this general problem. Built upon the insight that many CQs are integrals of regression functions, our framework models the regression function with a Gaussian Process. For the distribution component, we explore both a baseline using explicit density estimators and a more integrated method using conditional mean embeddings in a reproducing kernel Hilbert space. This latter approach offers key advantages: it bypasses explicit density estimation, operates within the same function space as the GP, and adaptively refines the distributional model after each update. Our framework enables the principled derivation of acquisition strategies from the CQ's posterior uncertainty; we instantiate this principle with two utility functions based on information gain and total variance reduction. A range of simulated and semi-synthetic experiments demonstrate that our principled framework significantly outperforms relevant baselines, achieving substantial gains in sample efficiency across a variety of CQs.
- Abstract(参考訳): 因果量(CQ)を推定するには、通常、大きなデータセットを必要とする。
この課題は、サンプル効率のよいアクティブラーニング戦略の重要性を強調している。
条件平均処理効果に対する先行研究の焦点の狭さに対処するため, 因果量 (ActiveCQ) を能動的に推定する広範なタスクを定式化し, この問題に対する統一的な枠組みを提案する。
多くのCQが回帰関数の積分であるという知見に基づいて、我々のフレームワークはガウス過程を用いて回帰関数をモデル化する。
分布成分について、明示密度推定器を用いたベースラインと、再現されたカーネルヒルベルト空間における条件平均埋め込みを用いたより統合的な手法の両方を探索する。
明示的な密度推定を回避し、GPと同じ関数空間内で動作し、更新後の分散モデルを適応的に洗練する。
我々は,情報ゲインと全分散還元に基づく2つのユーティリティ関数を用いて,CQの後方不確実性から獲得戦略の原則的導出を可能にする。
シミュレーションおよび半合成実験の範囲は、我々の原理的フレームワークが関連するベースラインを著しく上回り、様々なCQでサンプル効率を大幅に向上することを示した。
関連論文リスト
- A Theory of Inference Compute Scaling: Reasoning through Directed Stochastic Skill Search [15.387256204743407]
大規模言語モデル(LLM)は、訓練と配備の間にかなりの計算量、エネルギー、財務資源を必要とする。
推論コストは、今やリソース全体の負担の重要かつ増大する要素である。
本稿では,学習したスキルグラフ上での推論を表現力として表現する一般的なフレームワークである有向スキルサーチ(DS3)を紹介する。
論文 参考訳(メタデータ) (2025-06-10T14:47:48Z) - Outcome-Based Online Reinforcement Learning: Algorithms and Fundamental Limits [58.63897489864948]
結果に基づくフィードバックによる強化学習は、根本的な課題に直面します。
適切なアクションにクレジットを割り当てるには?
本稿では,一般関数近似を用いたオンラインRLにおけるこの問題の包括的解析を行う。
論文 参考訳(メタデータ) (2025-05-26T17:44:08Z) - Q-function Decomposition with Intervention Semantics with Factored Action Spaces [51.01244229483353]
元の作用空間の低次元射影部分空間上で定義されるQ-函数を考察し、分解されたQ-函数の不偏性について考察する。
これにより、標準モデルフリー強化学習アルゴリズムにおいて、予測Q関数を用いてQ関数を近似する動作分解強化学習と呼ばれる一般的なスキームが導かれる。
論文 参考訳(メタデータ) (2025-04-30T05:26:51Z) - Stochastic Q-learning for Large Discrete Action Spaces [79.1700188160944]
離散的な行動空間を持つ複雑な環境では、強化学習(RL)において効果的な意思決定が重要である
我々は、$n$アクションの集合全体を最適化するのとは対照的に、おそらく$mathcalO(log(n)$)$のような変数の集合のみを考える。
提示された値ベースのRL手法には、Q-learning、StochDQN、StochDDQNなどが含まれる。
論文 参考訳(メタデータ) (2024-05-16T17:58:44Z) - An Empirical Investigation of Value-Based Multi-objective Reinforcement
Learning for Stochastic Environments [1.26404863283601]
本稿では、値ベースMORL Q-learningアルゴリズムがSER-Optimal Policyを学習する頻度に影響を与える要因について検討する。
これらのアルゴリズムの安定性と収束性に対するノイズQ値推定問題の重大な影響を強調した。
論文 参考訳(メタデータ) (2024-01-06T08:43:08Z) - Equation Discovery with Bayesian Spike-and-Slab Priors and Efficient Kernels [57.46832672991433]
ケルネル学習とBayesian Spike-and-Slab pres (KBASS)に基づく新しい方程式探索法を提案する。
カーネルレグレッションを用いてターゲット関数を推定する。これはフレキシブルで表現力があり、データ空間やノイズに対してより堅牢である。
我々は,効率的な後部推論と関数推定のための予測伝搬予測最大化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-10-09T03:55:09Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Addressing the issue of stochastic environments and local
decision-making in multi-objective reinforcement learning [0.0]
多目的強化学習(MORL)は、従来の強化学習(RL)に基づく比較的新しい分野である。
この論文は、価値に基づくMORL Q-learningアルゴリズムが環境の最適ポリシーを学習する頻度に影響を与える要因に焦点を当てている。
論文 参考訳(メタデータ) (2022-11-16T04:56:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。