論文の概要: What Do We Care About in Bandits with Noncompliance? BRACE: Bandits with Recommendations, Abstention, and Certified Effects
- arxiv url: http://arxiv.org/abs/2603.09532v1
- Date: Tue, 10 Mar 2026 11:40:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.257857
- Title: What Do We Care About in Bandits with Noncompliance? BRACE: Bandits with Recommendations, Abstention, and Certified Effects
- Title(参考訳): 非準拠バンドで何が重要か?BRACE:推奨バンド、留意バンド、認定バンド
- Authors: Nicolás Della Penna,
- Abstract要約: 下流アクターが私的情報を利用する場合、リコメンデーション福祉は学習者評価可能な治療方針を厳格に超えることができることを示す。
有限コンテキスト2乗IV問題に対して,パラメータフリー位相共役アルゴリズムBRACEを提案する。
我々はこの理論を、直接制御にまたがる有限コンテキスト経験的ベンチマークで補完し、現在の未来的トレードオフ、弱い識別、均一性障害、長方形の過剰識別を媒介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bandits with noncompliance separate the learner's recommendation from the treatment actually delivered, so the learning target itself must be chosen. A platform may care about recommendation welfare in the current mediated workflow, treatment learning for a future direct-control regime, or anytime-valid uncertainty for one of those targets. These objectives need not agree. We formalize this objective-choice problem, identify the direct-control regime in which recommendation and treatment objectives collapse, and show by example that recommendation welfare can strictly exceed every learner-measurable treatment policy when downstream actors use private information. For finite-context square-IV problems we propose BRACE, a parameter-free phase-doubling algorithm that performs IV inversion only after matrix certification and otherwise returns full-range but honest structural intervals. BRACE delivers simultaneous policy-value validity, fixed-gap identification of the operationally optimal recommendation policy, and fixed-gap identification of the structurally optimal treatment policy under contextual homogeneity and invertibility. We complement the theory with a finite-context empirical benchmark spanning direct control, mediated present-versus-future tradeoffs, weak identification, homogeneity failure, and rectangular overidentification. The experiments show that safety appears as regret on easy problems, as abstention and wide valid intervals under weak identification, as a reason to prefer recommendation welfare under homogeneity failure, and as tighter structural uncertainty when extra instruments are available. For rich contexts, we also derive an orthogonal score whose conditional bias factorizes into compliance-model and outcome-model errors, clarifying what must be stabilized for anytime-valid semiparametric IV inference.
- Abstract(参考訳): 非準拠のバンドは、実際に提供された治療から学習者の推薦を分離するので、学習対象自体を選択する必要がある。
プラットフォームは、現在介在しているワークフローにおけるリコメンデーションの福祉、将来の直接管理体制のための治療学習、あるいはそれらの目標の1つに対する時効的な不確実性に気を配るかもしれない。
これらの目的には同意する必要はない。
我々は、この客観的選択問題を定式化し、勧告と治療目的が崩壊する直接制御体制を特定し、例えば、下流アクターがプライベート情報を使用する場合、推奨福祉が学習者計測可能な治療方針を厳格に超えることを示す。
有限コンテキスト2乗IV問題に対して,パラメータフリー位相共役アルゴリズムBRACEを提案する。
BRACEは、コンテキスト的均一性と可逆性の下で、同時にポリシー値の妥当性、運用上最適な推奨ポリシーの固定ギャップ識別、構造上最適な治療ポリシーの固定ギャップ識別を提供する。
我々はこの理論を、直接制御にまたがる有限コンテキスト経験的ベンチマークで補完し、現在の未来的トレードオフ、弱い識別、均一性障害、および長方形の過剰識別を行う。
実験の結果、安全は容易な問題に対する後悔として現れ、弱識別下での棄却と広範囲な有効間隔、均質性障害下での推奨福祉を優先する理由、余分な機器が利用可能である場合の構造的不確実性として現れることがわかった。
リッチな文脈では、条件バイアスがコンプライアンスモデルと結果モデルエラーに分解される直交スコアを導出し、任意の時間価半パラメトリックIV推論に対して安定化すべきものを明らかにする。
関連論文リスト
- Machine Learning for Stress Testing: Uncertainty Decomposition in Causal Panel Prediction [2.289837306672451]
規制ストレステストでは、仮説的なマクロ経済シナリオの下で信用損失を予測する必要がある。
パネルにおけるポリシーパスの反ファクト推論のためのフレームワークを提案する。
実失業データを用いたシミュレーションおよび半合成実験により,すべての結果を検証した。
論文 参考訳(メタデータ) (2026-03-08T03:22:38Z) - Conditional Coverage Diagnostics for Conformal Prediction [47.93989136542648]
条件付きカバレッジ推定が分類問題であることを示す。
得られたメトリクスの族をターゲットカバレッジ(ERT)の過剰なリスクと呼びます。
ERTのオープンソースパッケージと、以前の条件付きカバレッジメトリクスをリリースしています。
論文 参考訳(メタデータ) (2025-12-12T18:47:39Z) - COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。
COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。
リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文 参考訳(メタデータ) (2025-06-25T07:04:49Z) - Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Optimal Treatment Regimes for Proximal Causal Learning [7.672587258250301]
そこで本研究では,橋梁における結果と治療の相違に基づく最適な個別化治療体制を提案する。
この新たな最適治療体制の価値関数は,文献上に存在するものよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-12-19T14:29:25Z) - Post-Contextual-Bandit Inference [57.88785630755165]
コンテキストバンディットアルゴリズムは、電子商取引、医療、政策立案における非適応的なA/Bテストを置き換える傾向にある。
研究参加者の成果を改善することもでき、良い方針や最良の政策を特定できる可能性を高めることもできる。
研究の終盤における新規介入の信頼性推論を支援するため, 平均治療効果, サブグループ効果, あるいは新政策の価値について, 有効な信頼区間を構築したい。
論文 参考訳(メタデータ) (2021-06-01T12:01:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。