論文の概要: PROXIMA: A Reliability Scoring Framework for Proxy Metrics in Online Controlled Experiments
- arxiv url: http://arxiv.org/abs/2604.14352v1
- Date: Wed, 15 Apr 2026 19:10:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.570687
- Title: PROXIMA: A Reliability Scoring Framework for Proxy Metrics in Online Controlled Experiments
- Title(参考訳): PROXIMA: オンライン制御実験におけるプロキシメトリクスの信頼性評価フレームワーク
- Authors: Avinash Amudala,
- Abstract要約: PROXIMAは3つの相補的な次元の合成を通してプロキシの信頼性を評価する。
候補プロキシが起動決定を正すかどうかを直接監査する。
脆弱性分析により、レコメンデーションドメインはセグメントレベルの脆弱性がかなり高いことが分かる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online A/B testing at scale relies on proxy metrics -- short-term, easily-measured signals used in place of slow-moving long-term outcomes. When the proxy-outcome relationship is heterogeneous across user segments, aggregate correlation can mask directional failures akin to Simpson's Paradox, leading to costly ship/no-ship errors. We introduce PROXIMA (Proxy Metric Validation Framework for Online Experiments), a lightweight diagnostic framework that scores proxy reliability through a composite of three complementary dimensions: normalised effect correlation, directional accuracy, and segment-level fragility rate. Unlike surrogate-index approaches that predict long-term treatment effects, PROXIMA directly audits whether a candidate proxy leads to correct launch decisions and flags the user segments where it fails. We validate PROXIMA on two public datasets -- the Criteo Uplift corpus (14M observations, advertising) and KuaiRec (7K users, video recommendation) -- using 80 simulated A/B tests. Early engagement metrics achieve a composite reliability of 0.80 on Criteo and 0.62 on KuaiRec, yielding 98.4% average decision agreement with an oracle policy. Fragility analysis reveals that recommendation domains exhibit substantially higher segment-level heterogeneity (68% fragility) than advertising (13%), yet directional accuracy remains above 96% in both cases. A sensitivity analysis over the weight space confirms that no single component suffices and that the composite provides substantially better discrimination between reliable and unreliable proxies than correlation alone. Code and reproduction scripts are available at: https://github.com/Avinash-Amudala/PROXIMA
- Abstract(参考訳): 大規模なオンラインA/Bテストはプロキシメトリクスに依存しています。
プロキシとアウトカムの関係がユーザセグメント間で不均一である場合、集約相関は、SimpsonのParadoxに似た方向性の障害を隠蔽する可能性があるため、出荷/出荷エラーのコストがかかる。
ProXIMA(Proxy Metric Validation Framework for Online Experiments)は,正規化効果相関,方向精度,セグメントレベルの脆弱性率の3つの相補的次元の合成により,プロキシの信頼性を評価する軽量診断フレームワークである。
PROXIMAは長期治療効果を予測するサロゲートインデックスアプローチとは異なり、候補プロキシが正しいローンチ決定につながるかどうかを直接監査し、失敗するユーザセグメントにフラグを付ける。
ProXIMAは、80のシミュレーションされたA/Bテストを使用して、Criteo Uplift corpus (14Mの観察、広告)とKuaiRec (7Kのユーザ、ビデオレコメンデーション)という2つの公開データセットで検証する。
初期のエンゲージメント指標はCriteoで0.80、KuaiRecで0.62、託宣方針で98.4%となっている。
脆弱性分析により、推奨ドメインは広告(13%)よりもセグメントレベルの不均一性(68%)が著しく高いことが示されたが、どちらの場合も方向性の精度は96%以上である。
重み空間上の感度解析により、単一の成分が十分でないことが確認され、この複合物は、相関のみよりも信頼性と信頼性の低いプロキシのかなり優れた識別を提供する。
コードと再生スクリプトは、https://github.com/Avinash-Amudala/PROXIMAで入手できる。
関連論文リスト
- Predictive Entropy Links Calibration and Paraphrase Sensitivity in Medical Vision-Language Models [2.064612766965483]
我々は,MedGemma 4BITの分布MIMIC CXRと外分布PadChest chest X ray データセットの5つの不確実性定量化手法を示し,LLaVA RAD7Bのクロスアーキテクチャ検証を行った。
うまく校正された単一モデル法では、一方のフォワードパスからの予測エントロピーは、メドジェマのAUROC 0.711、LLaVARAD p 10 4の0.878、信頼できないと敏感な予測の両方を1つのエントロピーしきい値でフラグ付けることができる。
論文 参考訳(メタデータ) (2026-04-10T04:18:47Z) - SELFDOUBT: Uncertainty Quantification for Reasoning LLMs via the Hedge-to-Verify Ratio [0.038379177968040606]
言語モデル推論のための単一パス不確実性フレームワークであるSELFDOUBTを提案する。
私たちのキーシグナルであるHedge-to-Verify Ratio(HVR)は、推論トレースが不確実性マーカーを含むかどうかを検出し、もしそうであれば、明示的な自己チェック行動によってオフセットされているかどうかを検出する。
SELFDOUBTは単一の観測された推論軌道で動作し、任意のプロプライエタリなAPI上でのレイテンシとコスト制約によるデプロイメントに適している。
論文 参考訳(メタデータ) (2026-04-07T19:19:29Z) - Representational Collapse in Multi-Agent LLM Committees: Measurement and Diversity-Aware Consensus [0.0]
マルチエージェントLDM委員会は、異なるロールプロンプトの下で同じモデルを複製し、多数決によってアウトプットを集約する。
それぞれのエージェントのチェーン・オブ・シークレットの論理を組み込んで、100 GSM8Kの質問に3つのQwen2.5-14Bのエージェントでペアの類似度を測る。
DALCは、埋め込み幾何学から多様性重量を計算するトレーニングフリーコンセンサスプロトコルであり、GSM8Kでは87%、トークンコストでは84%に達する。
論文 参考訳(メタデータ) (2026-04-04T17:30:23Z) - When Benchmarks Lie: Evaluating Malicious Prompt Classifiers Under True Distribution Shift [0.0]
有害なリクエスト、ジェイルブレイク、間接的なプロンプトインジェクション、抽出攻撃にまたがる18のデータセットのベンチマークを用いて、包括的な分析を行う。
我々は,真のアウト・オブ・ディストリビューションの一般化を評価するために,LODO(Leave-One-Dataset-Out)評価を提案する。
論文 参考訳(メタデータ) (2026-02-15T14:21:43Z) - Agentic Test-Time Scaling for WebAgents [65.5178428849495]
CATTS(Confidence-Aware Test-Time Scaling)を提案する。
CATTSは、WebArena-LiteとGoBrowseのパフォーマンスをReact上で最大9.1%改善し、均一なスケーリングよりも最大2.3倍少ないトークンを使用する。
論文 参考訳(メタデータ) (2026-02-12T18:58:30Z) - Information Fidelity in Tool-Using LLM Agents: A Martingale Analysis of the Model Context Protocol [69.11739400975445]
モデルコンテキストプロトコル(MCP)エージェントにおけるエラー蓄積を解析するための最初の理論的枠組みを紹介する。
累積歪みが線形成長と高確率偏差を$O(sqrtT)$で表すことを示す。
主な発見は、意味重み付けは歪みを80%減らし、周期的再接地は、エラー制御の約9ステップごとに十分である。
論文 参考訳(メタデータ) (2026-02-10T21:08:53Z) - Beyond Raw Detection Scores: Markov-Informed Calibration for Boosting Machine-Generated Text Detection [105.14032334647932]
機械生成テキスト(MGT)は偽情報やフィッシングなどのリスクを生じさせ、信頼性の高い検出の必要性を強調している。
MGTの統計的に区別可能な特徴を抽出するメトリックベース法は、オーバーフィットしがちな複雑なモデルベース法よりも実用的であることが多い。
本稿では,2つのコンテキスト検出スコアの関係をモデル化したマルコフ情報を用いたスコアキャリブレーション手法を提案する。
論文 参考訳(メタデータ) (2026-02-08T16:06:12Z) - DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [48.971606069204825]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。
ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。
DoVerは失敗試験の18~28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30~60%を検証または否定する。
論文 参考訳(メタデータ) (2025-12-07T09:23:48Z) - Ranking Free RAG: Replacing Re-ranking with Selection in RAG for Sensitive Domains [13.58151841630302]
本稿では,RAGにおける再ランク付けを合理的な選択手法で置き換える新しい方法であるMETEORAを提案する。
METEORAは、最先端の再評価手法よりも約50%少ないチャンクを使用しながら、生成精度を33.34%向上させる。
敵対的な設定では、METEORAはF1スコアを0.10から0.44に大幅に改善する。
論文 参考訳(メタデータ) (2025-05-21T20:57:16Z) - Malicious Agent Detection for Robust Multi-Agent Collaborative Perception [52.261231738242266]
多エージェント協調(MAC)知覚は、単エージェント認識よりも敵攻撃に対して脆弱である。
MAC知覚に特異的な反応防御であるMADE(Malicious Agent Detection)を提案する。
我々は、ベンチマーク3DデータセットV2X-simとリアルタイムデータセットDAIR-V2Xで包括的な評価を行う。
論文 参考訳(メタデータ) (2023-10-18T11:36:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。