論文の概要: Policy-Guided Causal State Representation for Offline Reinforcement Learning Recommendation
- arxiv url: http://arxiv.org/abs/2502.02327v1
- Date: Tue, 04 Feb 2025 13:58:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:00:45.148675
- Title: Policy-Guided Causal State Representation for Offline Reinforcement Learning Recommendation
- Title(参考訳): オフライン強化学習勧告のための政策指導型因果状態表現
- Authors: Siyu Wang, Xiaocong Chen, Lina Yao,
- Abstract要約: Policy-Guided Causal Representation (PGCR)は、オフラインRLRSにおける因果的特徴選択と状態表現学習のための新しい2段階フレームワークである。
PGCRはリコメンデーション性能を大幅に改善し,オフラインRLベースのレコメンデーションシステムの有効性を確認した。
- 参考スコア(独自算出の注目度): 17.750449033873036
- License:
- Abstract: In offline reinforcement learning-based recommender systems (RLRS), learning effective state representations is crucial for capturing user preferences that directly impact long-term rewards. However, raw state representations often contain high-dimensional, noisy information and components that are not causally relevant to the reward. Additionally, missing transitions in offline data make it challenging to accurately identify features that are most relevant to user satisfaction. To address these challenges, we propose Policy-Guided Causal Representation (PGCR), a novel two-stage framework for causal feature selection and state representation learning in offline RLRS. In the first stage, we learn a causal feature selection policy that generates modified states by isolating and retaining only the causally relevant components (CRCs) while altering irrelevant components. This policy is guided by a reward function based on the Wasserstein distance, which measures the causal effect of state components on the reward and encourages the preservation of CRCs that directly influence user interests. In the second stage, we train an encoder to learn compact state representations by minimizing the mean squared error (MSE) loss between the latent representations of the original and modified states, ensuring that the representations focus on CRCs. We provide a theoretical analysis proving the identifiability of causal effects from interventions, validating the ability of PGCR to isolate critical state components for decision-making. Extensive experiments demonstrate that PGCR significantly improves recommendation performance, confirming its effectiveness for offline RL-based recommender systems.
- Abstract(参考訳): オフライン強化学習ベースレコメンデータシステム(RLRS)では、長期報酬に直接影響を与えるユーザの好みを捉えるために、効果的な状態表現の学習が不可欠である。
しかし、生の状態表現は、しばしば、報酬に因果関係のない高次元でノイズの多い情報とコンポーネントを含んでいる。
さらに、オフラインデータに欠落しているトランジションは、ユーザの満足度に最も関連する機能を正確に識別することを困難にしている。
これらの課題に対処するために、オフラインRLRSにおける因果的特徴選択と状態表現学習のための新しい2段階フレームワークであるPGCR(Policy-Guided Causal Representation)を提案する。
第1段階では、因果関係成分(CRC)のみを分離・保持し、無関係成分を変更して変化状態を生成する因果的特徴選択ポリシーを学習する。
この方針は、ワッサースタイン距離に基づく報酬関数によって導かれ、国家構成成分の報酬に対する因果効果を測定し、利用者の利益に直接影響を及ぼすCRCの保存を促進する。
第2段階では、エンコーダを訓練し、元の状態と修正された状態の潜在表現間の平均二乗誤差(MSE)損失を最小限に抑え、表現がCRCに集中することを保証する。
本稿では、介入による因果効果の同定可能性を証明する理論的解析を行い、PGCRが意思決定において重要な状態成分を分離する能力を検証した。
大規模実験により、PGCRはリコメンデーション性能を大幅に改善し、オフラインのRLベースのレコメンデーションシステムの有効性を確認した。
関連論文リスト
- Causal Information Prioritization for Efficient Reinforcement Learning [21.74375718642216]
現在の強化学習(RL)法は、しばしばサンプル効率に悩まされる。
最近の因果的アプローチはこの問題に対処することを目的としているが、それらは報酬誘導による状態や行動の因果的理解の基礎的なモデリングを欠いている。
本稿では,CIP(Causal Information Prioritization, 因果情報優先化)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2025-02-14T11:44:17Z) - On Causally Disentangled State Representation Learning for Reinforcement Learning based Recommender Systems [17.750449033873036]
Reinforcement Learning-based Recommender Systems (RLRS)では、ユーザインタラクションの複雑さとダイナミズムは高次元でノイズの多い状態空間をもたらすことが多い。
状態を分解し、textbfCausal-textbfIntextbfDispensable textbfState Representationsを抽出するための革新的な因果的アプローチを導入する。
論文 参考訳(メタデータ) (2024-07-18T01:41:05Z) - A Thorough Performance Benchmarking on Lightweight Embedding-based Recommender Systems [67.52782366565658]
State-of-the-art recommender system (RS) は、埋め込みベクトルによって符号化される分類的特徴に依存し、結果として非常に大きな埋め込みテーブルとなる。
軽量埋め込み型RSの繁栄にもかかわらず、評価プロトコルには幅広い多様性が見られる。
本研究では, LERSの性能, 効率, クロスタスク転送性について, 徹底的なベンチマークによる検討を行った。
論文 参考訳(メタデータ) (2024-06-25T07:45:00Z) - Pessimistic Causal Reinforcement Learning with Mediators for Confounded Offline Data [17.991833729722288]
我々は新しいポリシー学習アルゴリズム PESsimistic CAusal Learning (PESCAL) を提案する。
我々のキーとなる観察は、システム力学における作用の効果を媒介する補助変数を組み込むことで、Q-関数の代わりに媒介物分布関数の下位境界を学習することは十分であるということである。
提案するアルゴリズムの理論的保証とシミュレーションによる有効性の実証、および主要な配車プラットフォームからのオフラインデータセットを利用した実世界の実験を提供する。
論文 参考訳(メタデータ) (2024-03-18T14:51:19Z) - Robustness Verification of Deep Reinforcement Learning Based Control
Systems using Reward Martingales [13.069196356472272]
本稿では,DRLに基づく制御システムのロバスト性検証のための報奨マーチンガレットの導入による最初のアプローチを提案する。
本結果は,2つの質問に対する有意な定量的証明を提供する。
次に、さまざまな種類の制御ポリシに対して、ニューラルネットワークを介して報酬マーチンガレットを実装およびトレーニングできることを示します。
論文 参考訳(メタデータ) (2023-12-15T11:16:47Z) - Accountability in Offline Reinforcement Learning: Explaining Decisions
with a Corpus of Examples [70.84093873437425]
本稿では、オフラインデータセットを決定コーパスとして利用するAOC(Accountable Offline Controller)を紹介する。
AOCはローデータシナリオで効果的に動作し、厳密なオフラインの模倣設定まで拡張でき、保存性と適応性の両方の品質を示す。
シミュレーションおよび実世界の医療シナリオにおいて、AOCのパフォーマンスを評価し、説明責任を維持しながら高いレベルのパフォーマンスでオフライン制御タスクを管理する能力を強調した。
論文 参考訳(メタデータ) (2023-10-11T17:20:32Z) - DELTA: Dynamic Embedding Learning with Truncated Conscious Attention for
CTR Prediction [61.68415731896613]
CTR(Click-Through Rate)予測は、製品とコンテンツの推奨において重要なタスクである。
本稿では,CTR予測のための動的埋め込み学習を実現するモデルを提案する。
論文 参考訳(メタデータ) (2023-05-03T12:34:45Z) - Rewards Encoding Environment Dynamics Improves Preference-based
Reinforcement Learning [4.969254618158096]
本研究では、報酬関数(REED)の符号化環境ダイナミクスにより、最先端の嗜好に基づくRLフレームワークに必要な選好ラベルの数を劇的に減らすことを示す。
一部のドメインでは、REEDベースの報酬関数は、基礎的真理報酬に基づいて訓練されたポリシーより優れたポリシーをもたらす。
論文 参考訳(メタデータ) (2022-11-12T00:34:41Z) - Age of Semantics in Cooperative Communications: To Expedite Simulation
Towards Real via Offline Reinforcement Learning [53.18060442931179]
協調リレー通信システムにおける状態更新のセマンティックス更新度を測定するための意味学年代(AoS)を提案する。
オンライン・ディープ・アクター・クリティック(DAC)学習手法を,政治時間差学習の枠組みに基づいて提案する。
そこで我々は,以前に収集したデータセットから最適制御ポリシーを推定する,新しいオフラインDAC方式を提案する。
論文 参考訳(メタデータ) (2022-09-19T11:55:28Z) - Offline Reinforcement Learning with Instrumental Variables in Confounded
Markov Decision Processes [93.61202366677526]
未測定の共同設立者を対象にオフライン強化学習(RL)について検討した。
そこで本稿では, 最適クラスポリシーを見つけるための, 有限サンプルの準最適性を保証した多種多様なポリシー学習手法を提案する。
論文 参考訳(メタデータ) (2022-09-18T22:03:55Z) - RORL: Robust Offline Reinforcement Learning via Conservative Smoothing [72.8062448549897]
オフライン強化学習は、複雑な意思決定タスクに大量のオフラインデータを活用できる。
現在のオフラインRLアルゴリズムは一般に、値推定とアクション選択のために保守的に設計されている。
本稿では,ロバストオフライン強化学習(RORL)を提案する。
論文 参考訳(メタデータ) (2022-06-06T18:07:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。