論文の概要: Active Causal Experimentalist (ACE): Learning Intervention Strategies via Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2602.02451v1
- Date: Mon, 02 Feb 2026 18:43:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.368402
- Title: Active Causal Experimentalist (ACE): Learning Intervention Strategies via Direct Preference Optimization
- Title(参考訳): 能動因果実験者(ACE):直接選好最適化による介入戦略の学習
- Authors: Patrick Cooper, Alvaro Velasquez,
- Abstract要約: 実験者はシーケンシャルな決定問題に直面し、それぞれの介入は次に何を試すべきかを知らせるべき情報を明らかにする。
ランダムサンプリング、欲求情報、ラウンドロビンカバレッジといった従来のアプローチは、それぞれの決定を分離して扱う。
本稿では,実験設計を原則的方針として学習する能動実験因果論(ACE)を提案する。
- 参考スコア(独自算出の注目度): 6.628401122676601
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Discovering causal relationships requires controlled experiments, but experimentalists face a sequential decision problem: each intervention reveals information that should inform what to try next. Traditional approaches such as random sampling, greedy information maximization, and round-robin coverage treat each decision in isolation, unable to learn adaptive strategies from experience. We propose Active Causal Experimentalist (ACE), which learns experimental design as a sequential policy. Our key insight is that while absolute information gains diminish as knowledge accumulates (making value-based RL unstable), relative comparisons between candidate interventions remain meaningful throughout. ACE exploits this via Direct Preference Optimization, learning from pairwise intervention comparisons rather than non-stationary reward magnitudes. Across synthetic benchmarks, physics simulations, and economic data, ACE achieves 70-71% improvement over baselines at equal intervention budgets (p < 0.001, Cohen's d ~ 2). Notably, the learned policy autonomously discovers that collider mechanisms require concentrated interventions on parent variables, a theoretically-grounded strategy that emerges purely from experience. This suggests preference-based learning can recover principled experimental strategies, complementing theory with learned domain adaptation.
- Abstract(参考訳): 因果関係を明らかにするには、制御された実験が必要であるが、実験者は逐次的な決定問題に直面している。
ランダムサンプリング、欲求情報最大化、ラウンドロビンカバレッジといった従来のアプローチでは、各決定を個別に扱い、経験から適応的な戦略を学べない。
シーケンシャルポリシーとして実験設計を学習する能動因果実験者(ACE)を提案する。
我々の重要な洞察は、知識が蓄積するにつれて絶対情報が減少する(価値ベースのRLが不安定になる)一方で、候補者の介入間の相対的な比較は、ずっと意味のあるままであるということです。
ACEは直接選好最適化(Direct Preference Optimization)によってこれを活用し、非定常報酬の規模ではなく、ペアの介入比較から学習する。
総合ベンチマーク、物理シミュレーション、経済データ全体で、ACEは平等な介入予算(p < 0.001, Cohen's d ~ 2)でベースラインよりも70-71%改善している。
特に、学習されたポリシーは、コライダー機構が親変数への集中的な介入を必要とすることを自律的に発見する。
このことは、嗜好に基づく学習が、理論と学習領域適応を補完し、原則化された実験戦略を回復することができることを示唆している。
関連論文リスト
- MOOSE-Chem3: Toward Experiment-Guided Hypothesis Ranking via Simulated Experimental Feedback [136.27567671480156]
先行テストからのフィードバックに基づいて仮説を優先順位付けする実験誘導ランキングを導入する。
我々は、シーケンシャルな意思決定問題として実験誘導型ランキングを定めている。
我々のアプローチは、実験前のベースラインと強い改善を著しく上回る。
論文 参考訳(メタデータ) (2025-05-23T13:24:50Z) - Preference-Based Multi-Agent Reinforcement Learning: Data Coverage and Algorithmic Techniques [65.55451717632317]
PbMARL(Preference-based Multi-Agent Reinforcement Learning)について検討する。
一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ平衡を同定する。
以上の結果から,PbMARLの多面的アプローチが示唆された。
論文 参考訳(メタデータ) (2024-09-01T13:14:41Z) - Reduced-Rank Multi-objective Policy Learning and Optimization [57.978477569678844]
実際には、因果研究者は先験を念頭において1つの結果を持っていない。
政府支援の社会福祉プログラムでは、政策立案者は貧困の多次元的性質を理解するために多くの成果を集めている。
本稿では、最適政策学習の文脈において、複数の結果に対するデータ駆動型次元性推論手法を提案する。
論文 参考訳(メタデータ) (2024-04-29T08:16:30Z) - Active Learning for Optimal Intervention Design in Causal Models [11.294389953686945]
本研究は、最適介入を特定するための因果的アクティブラーニング戦略を開発し、分布のインターベンショナル平均と所望の目標平均との相違によって測定した。
本研究では、Perturb-CITE-seq実験から得られた合成データと単細胞転写データの両方にアプローチを適用し、特定の細胞状態遷移を誘導する最適な摂動を同定する。
論文 参考訳(メタデータ) (2022-09-10T20:40:30Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - Variance Reduction based Experience Replay for Policy Optimization [3.0790370651488983]
Variance Reduction Experience Replay (VRER) は、政策勾配推定を改善するために、関連するサンプルを選択的に再利用するためのフレームワークである。
VRERは、VRERによるポリシーグラディエントとして知られる、効率的な非政治学習アルゴリズムの基盤となる。
論文 参考訳(メタデータ) (2021-10-17T19:28:45Z) - Off-Policy Imitation Learning from Observations [78.30794935265425]
観察からの学習(lfo)は、多くのアプリケーションが利用できる実用的な強化学習シナリオである。
オフポリシ最適化を原則的に実現するサンプル効率の高いLfOアプローチを提案する。
我々のアプローチは、サンプル効率と性能の両面で最先端のロコモーションに匹敵する。
論文 参考訳(メタデータ) (2021-02-25T21:33:47Z) - Nonparametric Estimation of Heterogeneous Treatment Effects: From Theory
to Learning Algorithms [91.3755431537592]
プラグイン推定と擬似出力回帰に依存する4つの幅広いメタ学習戦略を解析する。
この理論的推論を用いて、アルゴリズム設計の原則を導出し、分析を実践に翻訳する方法について強調する。
論文 参考訳(メタデータ) (2021-01-26T17:11:40Z) - Sample-Efficient Reinforcement Learning via Counterfactual-Based Data
Augmentation [15.451690870640295]
医療などのいくつかのシナリオでは、通常、各患者に利用可能なレコードはごくわずかであり、現在の強化学習アルゴリズムの適用を妨げる。
構造因果モデル(SCM)を利用して状態ダイナミクスをモデル化する,データ効率の高いRLアルゴリズムを提案する。
本研究は, 軽度条件下では反実結果が識別可能であり, 反実に基づく拡張データセット上のq学習が最適値関数に収束することを示す。
論文 参考訳(メタデータ) (2020-12-16T17:21:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。