論文の概要: Refunded but Rewarded: The Double Dip Attack on Cashback Reward Engines
- arxiv url: http://arxiv.org/abs/2604.16427v1
- Date: Sun, 05 Apr 2026 10:17:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 07:02:04.104284
- Title: Refunded but Rewarded: The Double Dip Attack on Cashback Reward Engines
- Title(参考訳): キャッシュバック・リワードエンジンのダブル・ディップ・アタック
- Authors: S M Zia Ur Rashid, Suman Rath,
- Abstract要約: 我々は、報酬システムが報酬システムをどのように獲得し、再評価し、返済によって根底にある取引が逆転した場合にインセンティブを調整するかという欠陥から生じる報酬乱用攻撃のクラスについて研究する。
我々は、報酬エンジンをステートマシンとして形式化し、2つの整合性不変性(Reward IntegrityとRefund Reward Consistency)を導入し、半形式的正当性引数を持つ防御アルゴリズムを提示する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cashback reward programs now serve as central instruments in the competitive landscape of cards, digital wallets, and payment platforms. Despite their financial significance, the business logic governing these programs is seldom treated as a security critical surface. In this paper, we study a class of reward abuse attacks that arise from flaws in how reward systems accrue, redeem, and adjust incentives when underlying transactions are reversed through refunds. Using controlled, small scale experiments on six issuer accounts we legitimately hold, we document a spectrum of real world behaviors in production systems. At one extreme, a debit based cashback program (Issuer A) never adjusts rewards when refunded transactions post, enabling a deterministic double dip cashback reward abuse attack. A credit card program (Issuer B) exhibits an analogous reward integrity violation through a statement cycle timing gap that allows reward redemption before the merchant return window closes. At an intermediate tier, a credit card issuer (Issuer F) creates negative reward entries on refunds at statement close but makes rewards redeemable immediately upon settlement, creating a timing asymmetry that allows users to extract reward value before clawback occurs. At the robust end, three credit card issuers (C, D, and E) implement indefinite negative balance enforcement with proportional clawback. We formalize reward engines as state machines, introduce two integrity invariants (Reward Integrity and Refund Reward Consistency), develop a taxonomy of vulnerability classes mapped to CWE and OWASP, and present defensive pseudo algorithms with a semi formal correctness argument that close the identified loopholes. The primary vulnerability (Issuer A) was reported through a private bug bounty program and has been acknowledged by the vendor; good faith disclosure efforts for Issuer B are detailed in Section 8.
- Abstract(参考訳): キャッシュバック報酬プログラムは、カード、デジタルウォレット、支払いプラットフォームの競争環境において中心的な手段として機能している。
その経済的重要性にもかかわらず、これらのプログラムを管理するビジネスロジックは、セキュリティクリティカルサーフェスとして扱われることは滅多にない。
本稿では,リターンシステムによる報酬システムの獲得,再評価,インセンティブの調整方法の欠陥から生じる報酬乱用攻撃のクラスについて検討する。
合法的に保持する6つの発行者アカウント上の制御された小規模な実験を用いて、プロダクションシステムにおける実世界の振る舞いのスペクトルを文書化する。
極端な場合、デビットベースのキャッシュバックプログラム(Issuer A)は、トランザクションポストの返金時に報酬を調整することはなく、決定論的ダブルディップキャッシュバック報酬不正攻撃を可能にする。
クレジットカードプログラム(IssuerB)は、商店リターンウィンドウが閉じる前に報酬償還を可能にするステートメントサイクルタイミングギャップを介して、類似の報酬完全性違反を示す。
中間層では、クレジットカード発行者(IssuerF)は、返金時に返金時に負の報酬エントリをクローズするが、決済直後に返金可能とし、クローズバックが発生する前に報酬値を抽出できるタイミング非対称性を作成する。
ロバストエンドでは、3つのクレジットカード発行者(C、D、E)が比例爪バックで不定負のバランス執行を行う。
我々は、報酬エンジンをステートマシンとして形式化し、2つの整合性不変(Reward IntegrityとRefund Reward Consistency)を導入し、CWEとOWASPにマッピングされた脆弱性クラスの分類を開発し、識別された抜け穴を閉じる半形式的正当性引数を持つ防御擬似アルゴリズムを提示する。
主要な脆弱性(Issuer A)は、プライベートバグ報奨金プログラムを通じて報告され、ベンダーによって承認されている。
関連論文リスト
- Adversarial Reward Auditing for Active Detection and Mitigation of Reward Hacking [69.06218054848803]
本稿では,報酬ハッキングを動的かつ競争的なゲームとして再認識するフレームワークであるAdrial Reward Auditing(ARA)を提案する。
まず、ハッカーポリシーは報酬モデルの脆弱性を発見し、監査人は潜伏表現からのエクスプロイトを検出することを学習する。
ARAはすべてのベースラインの中で最高のアライメントユーティリティトレードオフを実現しています。
論文 参考訳(メタデータ) (2026-02-02T07:34:57Z) - Reward Hacking Mitigation using Verifiable Composite Rewards [5.061948558533868]
Reinforcement Learning from Verifiable Rewards (RLVR)は、最近、大規模言語モデル(LLM)が直接の監督なしに独自の推論を開発することができることを示した。
この研究は、この行動の2つの主要な形態に対処する。
報酬機構を利用するために、事前の推論なしで最終回答を提供する、すなわち、標準でない推論フォーマットを使用する。
論文 参考訳(メタデータ) (2025-09-19T03:40:27Z) - Stop Summation: Min-Form Credit Assignment Is All Process Reward Model Needs for Reasoning [36.320502608626896]
プロセス報酬モデル(PRM)は、大規模言語モデル(LLM)のテストタイムスケーリングにおいて、困難な推論タスクにおいて有効であることが証明されている。
しかしながら、PRMによる報酬ハッキング問題は、強化微調整における彼らの成功を制限している。
本稿では,PRMによる報酬ハッキングの主な原因を,強化学習における正準和形信用代入として同定する。
論文 参考訳(メタデータ) (2025-04-21T17:59:02Z) - Reasoning without Regret [4.07926531936425]
本稿では,スパース結果に基づく報酬を効果的な手順に基づく信号に変換する非回帰フレームワークであるemphBackwards Adaptive Reward Shaping(BARS)を紹介する。
我々の分析は, 一般的な連鎖, 連続スケーリング限界, 非線形ファインマン・カック境界に基づいて, 最近の結果に基づく手法の実証的成功と中間管理の利点を結びつけている。
論文 参考訳(メタデータ) (2025-04-14T00:34:20Z) - Jailbreaking as a Reward Misspecification Problem [80.52431374743998]
本稿では,この脆弱性をアライメントプロセス中に不特定性に対処する新たな視点を提案する。
本稿では,報酬の相違の程度を定量化し,その有効性を実証する指標ReGapを紹介する。
ReMissは、報酬ミスの空間で敵のプロンプトを生成する自動レッドチームリングシステムである。
論文 参考訳(メタデータ) (2024-06-20T15:12:27Z) - Would I have gotten that reward? Long-term credit assignment by
counterfactual contribution analysis [50.926791529605396]
モデルベース信用代入アルゴリズムの新たなファミリーであるCOCOA(Counterfactual Contribution Analysis)を紹介する。
我々のアルゴリズムは、その後の報酬を得る際の行動の貢献度を測定することによって、正確な信用割当を実現する。
論文 参考訳(メタデータ) (2023-06-29T09:27:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。