論文の概要: Understanding Endogenous Data Drift in Adaptive Models with Recourse-Seeking Users
- arxiv url: http://arxiv.org/abs/2503.09658v2
- Date: Sun, 02 Nov 2025 16:58:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-04 16:14:21.91565
- Title: Understanding Endogenous Data Drift in Adaptive Models with Recourse-Seeking Users
- Title(参考訳): Recourse-Seeking を用いた適応モデルにおける内因性データドリフトの理解
- Authors: Bo-Yi Liu, Zhi-Xuan Liu, Kuan Lun Chen, Shih-Yu Tsai, Jie Gao, Hao-Tsung Yang,
- Abstract要約: 資源制約と競合力学の下で,ユーザの戦略的行動と意思決定システムとの相互作用について検討する。
本稿では,Fair-top-kとDynamic Continual Learningの2つの手法を提案する。
我々の研究は、アルゴリズムによる意思決定がより高い基準を意図せずに強化し、導入に対する内在的障壁を発生させる方法について、経済理論と結びついている。
- 参考スコア(独自算出の注目度): 6.782864450313782
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deep learning models are widely used in decision-making and recommendation systems, where they typically rely on the assumption of a static data distribution between training and deployment. However, real-world deployment environments often violate this assumption. Users who receive negative outcomes may adapt their features to meet model criteria, i.e., recourse action. These adaptive behaviors create shifts in the data distribution and when models are retrained on this shifted data, a feedback loop emerges: user behavior influences the model, and the updated model in turn reshapes future user behavior. Despite its importance, this bidirectional interaction between users and models has received limited attention. In this work, we develop a general framework to model user strategic behaviors and their interactions with decision-making systems under resource constraints and competitive dynamics. Both the theoretical and empirical analyses show that user recourse behavior tends to push logistic and MLP models toward increasingly higher decision standards, resulting in higher recourse costs and less reliable recourse actions over time. To mitigate these challenges, we propose two methods--Fair-top-k and Dynamic Continual Learning (DCL)--which significantly reduce recourse cost and improve model robustness. Our findings draw connections to economic theories, highlighting how algorithmic decision-making can unintentionally reinforce a higher standard and generate endogenous barriers to entry.
- Abstract(参考訳): ディープラーニングモデルは意思決定やレコメンデーションシステムで広く使われており、トレーニングとデプロイメントの間の静的なデータ分布の仮定に依存するのが一般的である。
しかし、現実世界のデプロイメント環境はこの前提に反することが多い。
ネガティブな結果を得たユーザーは、自分の特徴をモデル基準、すなわちリコースアクションに適合させることができる。
これらの適応的な振る舞いは、データ分散のシフトを生成し、このシフトしたデータでモデルが再トレーニングされると、フィードバックループが出現する。
その重要性にもかかわらず、ユーザーとモデル間のこの双方向の相互作用は限定的な注目を集めている。
本研究では,資源制約下でのユーザ戦略行動と意思決定システムとのインタラクションをモデル化する汎用フレームワークを開発する。
理論的および実証的な分析は、ユーザ・リコースの振る舞いはロジスティック・モデルとMLPモデルをますます高い意思決定基準に推し進める傾向にあり、結果として、より高いリコースコストと信頼性の低いリコース行動が時間の経過とともに生じることを示している。
これらの課題を軽減するために,Fair-top-k と Dynamic Continual Learning (DCL) という2つの手法を提案する。
我々の研究は、アルゴリズムによる意思決定がより高い基準を意図せずに強化し、導入に対する内在的障壁を発生させる方法について、経済理論と結びついている。
関連論文リスト
- Pre-training for Recommendation Unlearning [14.514770044236375]
UnlearnRecはモデルに依存しない事前学習パラダイムであり、効率的な未学習操作のためのシステムを準備している。
本手法は,再学習手法に比べて10倍以上の高速化を実現した。
論文 参考訳(メタデータ) (2025-05-28T17:57:11Z) - Anticipating Gaming to Incentivize Improvement: Guiding Agents in (Fair) Strategic Classification [6.660458629649826]
アルゴリズムを騙そうとする個人の選択(「改善」)について検討する。
それらのインタラクションをStackelbergのゲームとして定式化し、そこで企業は(フェア)分類器をデプロイし、個人は戦略的に応答する。
論文 参考訳(メタデータ) (2025-05-08T18:47:23Z) - Reinforcement Learning for Machine Learning Model Deployment: Evaluating Multi-Armed Bandits in ML Ops Environments [0.0]
本稿では,強化学習(RL)に基づくモデル管理が,展開決定をより効果的に管理できるかどうかを検討する。
当社のアプローチは、デプロイされたモデルを継続的に評価し、パフォーマンスの低いモデルをリアルタイムでロールバックすることで、より適応的な運用環境を実現する。
この結果から,RLベースのモデル管理は,自動化を向上し,手作業による介入への依存を軽減し,デプロイ後のモデル障害に伴うリスクを軽減することが示唆された。
論文 参考訳(メタデータ) (2025-03-28T16:42:21Z) - Information-Seeking Decision Strategies Mitigate Risk in Dynamic, Uncertain Environments [0.0]
採餌作業における規範的報酬・情報探索戦略の性能を比較した。
彼らの行動には微妙な相違があり、結果として意味のあるパフォーマンスの違いが生じます。
本研究は,報酬損失を最小限に抑えつつリスクを軽減できる情報探索行動の適応的価値を支持する。
論文 参考訳(メタデータ) (2025-03-24T19:55:41Z) - Global-Decision-Focused Neural ODEs for Proactive Grid Resilience Management [50.34345101758248]
本稿では,機能停止予測とグローバルに最適化された介入を統合するフレームワークPATOGを提案する。
提案手法は,空間的かつ時間的に整合性のある意思決定を保証し,予測精度と操作効率を両立させる。
合成および実世界のデータセットの実験では、停止予測一貫性とグリッドレジリエンスが大幅に改善された。
論文 参考訳(メタデータ) (2025-02-25T16:15:35Z) - Learning from Reward-Free Offline Data: A Case for Planning with Latent Dynamics Models [79.2162092822111]
我々は,一連のナビゲーションタスクにおいて,強化学習(RL)と制御に基づく手法を体系的に評価する。
我々は、JEPA(Joint Embedding Predictive Architecture)を使用して、潜在ダイナミクスモデルを使用し、それを計画に使用します。
その結果,モデルベースプランニングではレイアウトが不明瞭になるのに対して,モデルフリーのRLは高品質なデータから恩恵を受けることがわかった。
論文 参考訳(メタデータ) (2025-02-20T18:39:41Z) - The Edge-of-Reach Problem in Offline Model-Based Reinforcement Learning [31.8260779160424]
学習力学モデルの改善に伴い,一般的なアルゴリズムがどのように機能するかを検討する。
エッジ・オブ・リーチ問題に直接対処する単純で堅牢な手法であるReach-Aware Learning (RAVL)を提案する。
論文 参考訳(メタデータ) (2024-02-19T20:38:00Z) - Deep autoregressive density nets vs neural ensembles for model-based
offline reinforcement learning [2.9158689853305693]
本稿では、利用可能なデータからシステムダイナミクスを推定し、仮想モデルロールアウトにおけるポリシー最適化を行うモデルベース強化学習アルゴリズムについて考察する。
このアプローチは、実際のシステムで破滅的な失敗を引き起こす可能性のあるモデルエラーを悪用することに対して脆弱である。
D4RLベンチマークの1つのよく校正された自己回帰モデルにより、より良い性能が得られることを示す。
論文 参考訳(メタデータ) (2024-02-05T10:18:15Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Dealing with uncertainty: balancing exploration and exploitation in deep
recurrent reinforcement learning [0.0]
環境に関する不完全な知識は、不確実性の下で意思決定を行うエージェントを導く。
強化学習(Reinforcement Learning, RL)では、自律的なエージェントが2つの対照的なニーズのバランスを取る必要がある。
適応的手法は、探索と搾取の間のトレードオフを近似した方がよいことを示す。
論文 参考訳(メタデータ) (2023-10-12T13:45:33Z) - Interpretable Imitation Learning with Dynamic Causal Relations [65.18456572421702]
得られた知識を有向非巡回因果グラフの形で公開することを提案する。
また、この因果発見プロセスを状態依存的に設計し、潜在因果グラフのダイナミクスをモデル化する。
提案するフレームワークは,動的因果探索モジュール,因果符号化モジュール,予測モジュールの3つの部分から構成され,エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2023-09-30T20:59:42Z) - Causal Disentangled Variational Auto-Encoder for Preference
Understanding in Recommendation [50.93536377097659]
本稿では,コメンテータシステムにおける対話データから因果不整合表現を学習するためのCaD-VAE(Causal Disentangled Variational Auto-Encoder)を提案する。
この手法は構造因果モデルを用いて、潜在因子間の因果関係を記述する因果表現を生成する。
論文 参考訳(メタデータ) (2023-04-17T00:10:56Z) - Causal Strategic Classification: A Tale of Two Shifts [11.929584800629675]
戦略行動と因果効果が,2つの相補的な分布シフトをいかに生み出すかを示す。
本稿では,この2つの力のバランスと時間とともに学習アルゴリズムを提案し,エンドツーエンドのトレーニングを可能にした。
論文 参考訳(メタデータ) (2023-02-13T11:35:59Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Preference Enhanced Social Influence Modeling for Network-Aware Cascade
Prediction [59.221668173521884]
本稿では,ユーザの嗜好モデルを強化することで,カスケードサイズ予測を促進する新しいフレームワークを提案する。
エンド・ツー・エンドの手法により,ユーザの情報拡散プロセスがより適応的で正確になる。
論文 参考訳(メタデータ) (2022-04-18T09:25:06Z) - Learning Self-Modulating Attention in Continuous Time Space with
Applications to Sequential Recommendation [102.24108167002252]
本稿では,複雑で非線形に進化する動的ユーザの嗜好をモデル化する,自己変調型注意ネットワークを提案する。
提案手法がトップNシーケンシャルなレコメンデーションタスクに与える影響を実証的に示すとともに,3つの大規模実世界のデータセットによる結果から,我々のモデルが最先端のパフォーマンスを達成できることを示す。
論文 参考訳(メタデータ) (2022-03-30T03:54:11Z) - Learning from Heterogeneous Data Based on Social Interactions over
Graphs [58.34060409467834]
本研究では,個別のエージェントが異なる次元のストリーミング特徴を観察しながら分類問題の解決を目指す分散アーキテクチャを提案する。
私たちはそれを示します。
戦略により、エージェントはこの高度に異質な環境下で一貫して学習することができる。
私たちはそれを示します。
戦略により、エージェントはこの高度に異質な環境下で一貫して学習することができる。
論文 参考訳(メタデータ) (2021-12-17T12:47:18Z) - Towards Robust and Adaptive Motion Forecasting: A Causal Representation
Perspective [72.55093886515824]
本稿では,3つの潜伏変数群からなる動的過程として,運動予測の因果的形式化を導入する。
我々は、因果グラフを近似するために、不変なメカニズムやスタイルの共創者の表現を分解するモジュラーアーキテクチャを考案する。
合成および実データを用いた実験結果から,提案した3つの成分は,学習した動き表現の頑健性と再利用性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2021-11-29T18:59:09Z) - Revisiting Design Choices in Model-Based Offline Reinforcement Learning [39.01805509055988]
オフライン強化学習により、エージェントは環境遷移の大規模な収集済みデータセットを利用して制御ポリシーを学習することができる。
本稿では、モデル数や仮想ロールアウト地平線など、他のハイパーパラメータとの相互作用を研究するための新しいプロトコルを比較し、設計する。
論文 参考訳(メタデータ) (2021-10-08T13:51:34Z) - Online Learning Demands in Max-min Fairness [91.37280766977923]
本稿では,複数のユーザ間の希少リソースの割り当て機構について,効率的で公平で戦略に準拠した方法で記述する。
このメカニズムは複数のラウンドで繰り返され、各ラウンドでユーザの要求が変更される可能性がある。
各ラウンドの最後には、ユーザは受け取ったアロケーションに関するフィードバックを提供し、そのメカニズムが時間の経過とともにユーザの好みを学習することを可能にする。
論文 参考訳(メタデータ) (2020-12-15T22:15:20Z) - Coordinated Online Learning for Multi-Agent Systems with Coupled
Constraints and Perturbed Utility Observations [91.02019381927236]
本研究では, 資源制約を満たすため, エージェントを安定な集団状態へ誘導する新しい手法を提案する。
提案手法は,ゲームラグランジアンの拡張によるリソース負荷に基づく分散リソース価格設定手法である。
論文 参考訳(メタデータ) (2020-10-21T10:11:17Z) - On the model-based stochastic value gradient for continuous
reinforcement learning [50.085645237597056]
モデルベースエージェントは,サンプル効率と最終報酬の両方の観点から,最先端のモデルフリーエージェントより優れていることを示す。
以上の結果から,モデルに基づく政策評価がより注目に値することが示唆された。
論文 参考訳(メタデータ) (2020-08-28T17:58:29Z) - Counterfactual Learning of Stochastic Policies with Continuous Actions [42.903292639112536]
コンテクストとアクションを融合したカーネルを組み込んだモデリング戦略を導入する。
対実学習の最適化の側面が重要であることを実証的に示す。
実世界のログシステムにおけるオフラインポリシーの評価プロトコルを提案する。
論文 参考訳(メタデータ) (2020-04-22T07:42:30Z) - Causal Strategic Linear Regression [5.672132510411465]
信用スコアや学術試験のような多くの予測的な意思決定シナリオでは、意思決定者は、決定ルールを「ゲーム」するためにエージェントの正当性を説明するモデルを構築しなければならない。
私たちは、変更可能な属性の関数として、モデリングエージェントの結果の同時処理に参加します。
3つの異なる意思決定目標を最適化する意思決定ルールを学習するための効率的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2020-02-24T03:57:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。