論文の概要: Reinforcement Learning for Durable Algorithmic Recourse
- arxiv url: http://arxiv.org/abs/2509.22102v1
- Date: Fri, 26 Sep 2025 09:24:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.329624
- Title: Reinforcement Learning for Durable Algorithmic Recourse
- Title(参考訳): 耐久性のあるアルゴリズム・リコースのための強化学習
- Authors: Marina Ceccon, Alessandro Fabris, Goran Radanović, Asia J. Biega, Gian Antonio Susto,
- Abstract要約: 提案手法は,提案手法を用いて,候補集団が推薦に応じてどのように適応するかを明示的にモデル化する。
また、環境の進化的ダイナミクスをキャプチャするRLベースのリコースアルゴリズムも導入する。
- 参考スコア(独自算出の注目度): 49.54997446851335
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Algorithmic recourse seeks to provide individuals with actionable recommendations that increase their chances of receiving favorable outcomes from automated decision systems (e.g., loan approvals). While prior research has emphasized robustness to model updates, considerably less attention has been given to the temporal dynamics of recourse--particularly in competitive, resource-constrained settings where recommendations shape future applicant pools. In this work, we present a novel time-aware framework for algorithmic recourse, explicitly modeling how candidate populations adapt in response to recommendations. Additionally, we introduce a novel reinforcement learning (RL)-based recourse algorithm that captures the evolving dynamics of the environment to generate recommendations that are both feasible and valid. We design our recommendations to be durable, supporting validity over a predefined time horizon T. This durability allows individuals to confidently reapply after taking time to implement the suggested changes. Through extensive experiments in complex simulation environments, we show that our approach substantially outperforms existing baselines, offering a superior balance between feasibility and long-term validity. Together, these results underscore the importance of incorporating temporal and behavioral dynamics into the design of practical recourse systems.
- Abstract(参考訳): アルゴリズムのリコースは、自動決定システム(融資承認など)から有利な結果を得る可能性を高めるための、行動可能なレコメンデーションを個人に提供することを目的としています。
以前の研究では、モデル更新に対する堅牢性を強調していたが、特に、将来の応募者プールを形作る、競争的でリソースに制約のある設定において、レコメンデーションの時間的ダイナミクスには、はるかに注意が向けられている。
そこで本研究では,提案手法を用いて,候補集団が推薦に応じてどのように適応するかを明示的にモデル化する,新しい時間認識型アルゴリズムの枠組みを提案する。
さらに、環境の進化するダイナミクスをキャプチャして、実現可能かつ有効なレコメンデーションを生成する、新しい強化学習(RL)ベースのリコースアルゴリズムを導入する。
この耐久性は、提案された変更を実装する時間を要した後、個人が自信を持って再適用できることを意味します。
複雑なシミュレーション環境での広範な実験を通して、我々のアプローチは既存のベースラインを大幅に上回り、実現可能性と長期的妥当性のバランスが優れていることを示す。
これらの結果は,実践的な講義システムの設計に時間的・行動的ダイナミクスを取り入れることの重要性を浮き彫りにした。
関連論文リスト
- STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:47:58Z) - Towards Human-like Preference Profiling in Sequential Recommendation [42.100841285901474]
RecPOは、シーケンシャルなレコメンデーションのための優先順位最適化フレームワークである。
これは、推定された嗜好階層と時間信号に基づいて適応的な報酬マージンを利用する。
タイムリーな満足感、コヒーレントな嗜好の維持、変化する状況下での識別の行使など、人間の意思決定の重要な特徴を反映している。
論文 参考訳(メタデータ) (2025-06-02T21:09:29Z) - Value Function Decomposition in Markov Recommendation Process [19.082512423102855]
本稿では,レコメンダ性能を向上させるためのオンライン強化学習フレームワークを提案する。
これらの2つの因子は、元の時間差損失を分解することで、別々に近似できることを示す。
アンタングル学習フレームワークは、より高速な学習と、アクション探索に対する堅牢性の向上により、より正確な推定を実現することができる。
論文 参考訳(メタデータ) (2025-01-29T04:22:29Z) - Hierarchical Reinforcement Learning for Temporal Abstraction of Listwise Recommendation [51.06031200728449]
我々はmccHRLと呼ばれる新しいフレームワークを提案し、リストワイドレコメンデーションにおける時間的抽象化のレベルを異なるものにする。
階層的な枠組みの中では、ハイレベルエージェントがユーザ知覚の進化を研究し、低レベルエージェントがアイテム選択ポリシーを作成している。
その結果,本手法による性能改善は,いくつかのよく知られたベースラインと比較して有意な結果が得られた。
論文 参考訳(メタデータ) (2024-09-11T17:01:06Z) - DNS-Rec: Data-aware Neural Architecture Search for Recommender Systems [79.76519917171261]
本稿では,SRS(Sequential Recommender Systems)における計算オーバーヘッドと資源非効率性について述べる。
本稿では, プルーニング法と高度なモデル設計を組み合わせた革新的な手法を提案する。
我々の主な貢献は、リコメンダシステム(DNS-Rec)のためのデータ対応ニューラルアーキテクチャ検索の開発である。
論文 参考訳(メタデータ) (2024-02-01T07:22:52Z) - AURO: Reinforcement Learning for Adaptive User Retention Optimization in Recommender Systems [25.18963930580529]
強化学習(Reinforcement Learning, RL)は、レコメンデーションシステムにおけるユーザ保持の最適化能力に注目が集まっている。
本稿では,この課題に対処するため,textbfAdaptive textbfUser textbfRetention textbfOptimization (AURO) という新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-06T02:45:21Z) - Optimizing Audio Recommendations for the Long-Term: A Reinforcement Learning Perspective [11.31980071390936]
本稿では,産業規模でのポッドキャストレコメンデーションシステムについて紹介する。
機械学習アルゴリズムを短時間のプロキシメトリクスに最適化するという、幅広い業界慣行から逸脱して、システムはA/Bテストの長期的なパフォーマンスを大幅に改善する。
論文 参考訳(メタデータ) (2023-02-07T16:17:25Z) - Recommendation Fairness: From Static to Dynamic [12.080824433982993]
推薦のための強化学習手法に公平性を組み込む方法について論じる。
我々は、推薦公正性をさらに前進させるために、マルチエージェント(ゲーム理論)最適化、マルチオブジェクト(パレート)最適化を検討すべきかもしれないと論じる。
論文 参考訳(メタデータ) (2021-09-05T21:38:05Z) - Improving Long-Term Metrics in Recommendation Systems using
Short-Horizon Offline RL [56.20835219296896]
セッションベースのレコメンデーションシナリオについて検討し、シーケンシャルなインタラクションの間、ユーザに対してアイテムを推薦し、長期的なユーティリティを改善する。
我々は、セッション間のポリシーによる分散シフトを近似するショートホライズンポリシー改善(SHPI)と呼ばれる新しいバッチRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-06-01T15:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。