論文の概要: Offline Contextual Bandit with Counterfactual Sample Identification
- arxiv url: http://arxiv.org/abs/2509.10520v1
- Date: Wed, 03 Sep 2025 17:23:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-21 06:05:45.778907
- Title: Offline Contextual Bandit with Counterfactual Sample Identification
- Title(参考訳): 対実サンプル同定を用いたオフラインコンテキスト帯域
- Authors: Alexandre Gilotte, Otmane Sakhi, Imad Aouali, Benjamin Heymann,
- Abstract要約: 問題を再編成する新しいアプローチであるemphCounterfactual Sample Identificationを提案する。
同じコンテキスト下でロギングポリシーからサンプリングされた偽のアクションと比較することで、どのアクションが成功した(バイナリ)結果につながったかを認識することができる。
この手法は理論上は接地されており、合成実験と実世界の展開の両方において直接モデルよりも一貫して優れている。
- 参考スコア(独自算出の注目度): 46.28017140572791
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In production systems, contextual bandit approaches often rely on direct reward models that take both action and context as input. However, these models can suffer from confounding, making it difficult to isolate the effect of the action from that of the context. We present \emph{Counterfactual Sample Identification}, a new approach that re-frames the problem: rather than predicting reward, it learns to recognize which action led to a successful (binary) outcome by comparing it to a counterfactual action sampled from the logging policy under the same context. The method is theoretically grounded and consistently outperforms direct models in both synthetic experiments and real-world deployments.
- Abstract(参考訳): プロダクションシステムでは、コンテキストバンディットのアプローチは、アクションとコンテキストの両方を入力として取る直接的な報酬モデルに依存することが多い。
しかし,これらのモデルではコンファウンディングに悩まされる可能性があり,コンテキストからアクションの効果を分離することが困難である。
報奨を予測するのではなく、同じ状況下でロギングポリシーからサンプリングされた対実的なアクションと比較することによって、どのアクションが成功した(バイナリ)結果をもたらすかを認識することを学習する。
この手法は理論上は接地されており、合成実験と実世界の展開の両方において直接モデルよりも一貫して優れている。
関連論文リスト
- Practical Adversarial Attacks on Stochastic Bandits via Fake Data Injection [5.311665176634655]
盗賊に対する敵対的な攻撃は伝統的にいくつかの非現実的な仮定に依存してきた。
現実的な敵の制約を反映したより実用的な脅威モデルを提案する。
我々は、このモデルの下で効率的な攻撃戦略を設計し、大小制約と時間的制約の両方に明示的に対処する。
論文 参考訳(メタデータ) (2025-05-28T03:47:13Z) - Counterfactual Realizability [52.85109506684737]
本稿では, 正規化可能性の定義, 分布からサンプルを抽出する能力を導入し, 任意の反事実分布が実現可能であるかどうかを判定する完全アルゴリズムを開発する。
本稿では、因果的公正さと因果的強化学習のモチベーション例を用いて、この新たな反ファクト的データ収集フレームワークの意義を説明する。
論文 参考訳(メタデータ) (2025-03-14T20:54:27Z) - DALA: A Distribution-Aware LoRA-Based Adversarial Attack against
Language Models [64.79319733514266]
敵攻撃は入力データに微妙な摂動をもたらす可能性がある。
最近の攻撃方法は比較的高い攻撃成功率(ASR)を達成することができる。
そこで本研究では,分散ロラをベースとしたDALA(Adversarial Attack)手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T23:43:47Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - From Fake to Real: Pretraining on Balanced Synthetic Images to Prevent Spurious Correlations in Image Recognition [64.59093444558549]
我々はFrom Fake to Realと呼ぶシンプルで簡単に実装できる2段階のトレーニングパイプラインを提案する。
実データと合成データを別々にトレーニングすることで、FFRは実データと合成データの統計的差異にモデルを公開しない。
実験の結果,FFRは3つのデータセットに対して,最先端のグループ精度を最大20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-08-08T19:52:28Z) - The Enemy of My Enemy is My Friend: Exploring Inverse Adversaries for
Improving Adversarial Training [72.39526433794707]
敵の訓練とその変種は、敵の例に対抗して最も効果的なアプローチであることが示されている。
本稿では,モデルが類似した出力を生成することを奨励する,新たな対角訓練手法を提案する。
本手法は,最先端のロバスト性および自然な精度を実現する。
論文 参考訳(メタデータ) (2022-11-01T15:24:26Z) - Causal Intervention-based Prompt Debiasing for Event Argument Extraction [19.057467535856485]
我々は、名前ベースのプロンプトとオントロジーベースのプロンプトの2種類のプロンプトを比較し、オントロジーベースのプロンプトメソッドがゼロショットイベント引数抽出(EAE)においてそのプロンプトをいかに上回っているかを明らかにする。
2つのベンチマーク実験により,デバイアス法によって修正されたベースラインモデルは,より効果的かつ堅牢になり,対向攻撃に対する耐性が著しく向上することが示された。
論文 参考訳(メタデータ) (2022-10-04T12:32:00Z) - Improving Gradient-based Adversarial Training for Text Classification by
Contrastive Learning and Auto-Encoder [18.375585982984845]
我々は,モデルの訓練過程において,勾配に基づく敵攻撃を防御するモデルの能力の向上に焦点をあてる。
本稿では, CARL と RAR の2つの新しい対戦訓練手法を提案する。
実験により,提案した2つの手法は,テキスト分類データセットにおいて高いベースラインを達成していることが示された。
論文 参考訳(メタデータ) (2021-09-14T09:08:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。