Fugu-MT 論文翻訳(概要): Causal Decision Transformer for Recommender Systems via Offline Reinforcement Learning

論文の概要: Causal Decision Transformer for Recommender Systems via Offline Reinforcement Learning

arxiv url: http://arxiv.org/abs/2304.07920v1
Date: Mon, 17 Apr 2023 00:05:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-18 16:42:02.318655
Title: Causal Decision Transformer for Recommender Systems via Offline Reinforcement Learning
Title（参考訳）: オフライン強化学習による推薦システムの因果決定変換器
Authors: Siyu Wang and Xiaocong Chen and Dietmar Jannach and Lina Yao
Abstract要約: 我々は、リコメンデータシステムのための因果決定変換器(CDT4Rec)という新しいモデルを提案する。 CDT4Recはオフラインの強化学習システムで、オンラインインタラクションではなくデータセットから学習することができる。本モデルの有効性と優位性を示すため、6つの実世界のオフラインデータセットと1つのオンラインシミュレータの実験を行った。
参考スコア（独自算出の注目度）: 44.880931022700885
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning-based recommender systems have recently gained popularity. However, the design of the reward function, on which the agent relies to optimize its recommendation policy, is often not straightforward. Exploring the causality underlying users' behavior can take the place of the reward function in guiding the agent to capture the dynamic interests of users. Moreover, due to the typical limitations of simulation environments (e.g., data inefficiency), most of the work cannot be broadly applied in large-scale situations. Although some works attempt to convert the offline dataset into a simulator, data inefficiency makes the learning process even slower. Because of the nature of reinforcement learning (i.e., learning by interaction), it cannot collect enough data to train during a single interaction. Furthermore, traditional reinforcement learning algorithms do not have a solid capability like supervised learning methods to learn from offline datasets directly. In this paper, we propose a new model named the causal decision transformer for recommender systems (CDT4Rec). CDT4Rec is an offline reinforcement learning system that can learn from a dataset rather than from online interaction. Moreover, CDT4Rec employs the transformer architecture, which is capable of processing large offline datasets and capturing both short-term and long-term dependencies within the data to estimate the causal relationship between action, state, and reward. To demonstrate the feasibility and superiority of our model, we have conducted experiments on six real-world offline datasets and one online simulator.
Abstract（参考訳）: 強化学習に基づくレコメンデーションシステムは近年人気を集めている。しかし、エージェントが推奨ポリシーの最適化に頼っている報酬関数の設計は簡単ではないことが多い。ユーザの行動に根ざした因果関係を探索することは,エージェントにユーザのダイナミックな関心を捉えるための報酬関数の代わりとなる。さらに、シミュレーション環境(例えば、データ非効率性)の典型的な制限のため、ほとんどの作業は大規模な状況では広く適用できない。オフラインデータセットをシミュレータに変換しようとする作業もあるが、データ非効率により学習プロセスはさらに遅くなる。強化学習(すなわちインタラクションによる学習)の性質上、単一のインタラクションでトレーニングするのに十分なデータを収集することはできない。さらに、従来の強化学習アルゴリズムは、オフラインデータセットから直接学習する教師付き学習手法のような強固な能力を持っていない。本稿では,リコメンデータシステムのための因果決定変換器(CDT4Rec)という新しいモデルを提案する。 CDT4Recはオフラインの強化学習システムで、オンラインインタラクションではなくデータセットから学習することができる。さらにcdt4recは、大規模なオフラインデータセットを処理し、データ内の短期的および長期的依存関係をキャプチャして、アクション、状態、報酬の因果関係を推定するtransformerアーキテクチャを採用している。本モデルの有効性と優位性を示すため、6つの実世界のオフラインデータセットと1つのオンラインシミュレータの実験を行った。

関連論文リスト

Real-World Offline Reinforcement Learning from Vision Language Model Feedback [19.494335952082466]
オフラインの強化学習は、オンラインインタラクションなしで、事前にコンパイルされた、最適なデータセットからポリシー学習を可能にする。既存のオフラインRL作業の多くは、データセットにタスク報酬がラベル付けされていることを前提としている。オフラインデータセットの報酬ラベルを自動的に生成する新しいシステムを提案する。
論文参考訳（メタデータ） (2024-11-08T02:12:34Z)
Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文参考訳（メタデータ） (2024-09-12T11:50:06Z)
Offline Trajectory Optimization for Offline Reinforcement Learning [42.306438854850434]
オフライン強化学習はオンライン調査なしで政策を学ぶことを目的としていますオフラインRLのための既存のデータ拡張手法は、(i)短期水平シミュレーションによる自明な改善に悩まされている。オフライン強化学習(OTTO)のためのオフライン軌道最適化を提案する。
論文参考訳（メタデータ） (2024-04-16T08:48:46Z)
Small Dataset, Big Gains: Enhancing Reinforcement Learning by Offline Pre-Training with Model Based Augmentation [59.899714450049494]
オフラインの事前トレーニングは、準最適ポリシーを生成し、オンライン強化学習のパフォーマンスを低下させる可能性がある。本稿では,オフライン強化学習による事前学習のメリットを最大化し,有効となるために必要なデータの規模を削減するためのモデルベースデータ拡張戦略を提案する。
論文参考訳（メタデータ） (2023-12-15T14:49:41Z)
Benchmarking Offline Reinforcement Learning on Real-Robot Hardware [35.29390454207064]
特にデクサラスな操作は、その一般的な形式において未解決の問題である。本稿では,2つのタスク上の厳密な操作プラットフォームからオフライン学習のための大量のデータを含むベンチマークを提案する。実システム上でのオフライン強化学習のための再現可能な実験的なセットアップを提供する。
論文参考訳（メタデータ） (2023-07-28T17:29:49Z)
Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文参考訳（メタデータ） (2023-06-06T02:24:41Z)
Offline Robot Reinforcement Learning with Uncertainty-Guided Human Expert Sampling [11.751910133386254]
バッチ(オフライン)強化学習の最近の進歩は、利用可能なオフラインデータから学習する上で有望な結果を示している。本研究では,不確実性推定を用いて人間の実演データを注入する手法を提案する。実験の結果,本手法は,専門家データと準最適エージェントから収集したデータを組み合わせる方法に比べて,よりサンプル効率が高いことがわかった。
論文参考訳（メタデータ） (2022-12-16T01:41:59Z)
Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文参考訳（メタデータ） (2022-02-17T02:44:05Z)
S4RL: Surprisingly Simple Self-Supervision for Offline Reinforcement Learning [28.947071041811586]
オフライン強化学習は、インタラクションなしで大規模なデータセットからポリシーを学ぶことを提案する。現在のアルゴリズムは、トレーニング対象のデータセットに過度に適合し、デプロイ時に環境への不適切な分散一般化を実行する。本稿では,環境にデプロイした場合の一般化と補間に優れた値関数を学習するために,状態からのデータ拡張を利用する,驚くほど単純な自己スーパービジョンアルゴリズム(s4rl)を提案する。
論文参考訳（メタデータ） (2021-03-10T20:13:21Z)
AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文参考訳（メタデータ） (2020-06-16T17:54:41Z)
Parameter-Efficient Transfer from Sequential Behaviors for User Modeling and Recommendation [111.44445634272235]
本稿では,PeterRecと呼ばれるパラメータ効率のよい移動学習アーキテクチャを提案する。 PeterRecは、トレーニング済みのパラメータを、一連の再学習ニューラルネットワークを注入することで、微調整中に修正されないようにする。我々は5つの下流タスクにおいて学習したユーザ表現の有効性を示すために、広範囲な実験的アブレーションを行う。
論文参考訳（メタデータ） (2020-01-13T14:09:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。