論文の概要: Generative Sequential Notification Optimization via Multi-Objective Decision Transformers
- arxiv url: http://arxiv.org/abs/2509.02458v1
- Date: Tue, 02 Sep 2025 16:09:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:04.094657
- Title: Generative Sequential Notification Optimization via Multi-Objective Decision Transformers
- Title(参考訳): 多目的決定変換器による逐次通知最適化
- Authors: Borja Ocejo, Ruofan Wang, Ke Liu, Rohit K. Patra, Haotian Shen, David Liu, Yiwen Yuan, Gokulraj Mohanasundaram, Fedor Borisyuk, Prakruthi Prabhakar,
- Abstract要約: 本稿では,政策学習をリターン条件付き教師あり学習として再編成する決定変換器ベースのフレームワークを提案する。
コントリビューションには、CQLと実世界の比較、非エポゾディックなタスクに適したマルチリワード設計、リターン・ツー・ゴ・ゴ・コンディショニングのための量子回帰アプローチなどが含まれます。
- 参考スコア(独自算出の注目度): 9.542285455613927
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Notifications are an important communication channel for delivering timely and relevant information. Optimizing their delivery involves addressing complex sequential decision-making challenges under constraints such as message utility and user fatigue. Offline reinforcement learning (RL) methods, such as Conservative Q-Learning (CQL), have been applied to this problem but face practical challenges at scale, including instability, sensitivity to distribution shifts, limited reproducibility, and difficulties with explainability in high-dimensional recommendation settings. We present a Decision Transformer (DT) based framework that reframes policy learning as return-conditioned supervised learning, improving robustness, scalability, and modeling flexibility. Our contributions include a real-world comparison with CQL, a multi-reward design suitable for non-episodic tasks, a quantile regression approach to return-to-go conditioning, and a production-ready system with circular buffer-based sequence processing for near-real-time inference. Extensive offline and online experiments in a deployed notification system show that our approach improves notification utility and overall session activity while minimizing user fatigue. Compared to a multi-objective CQL-based agent, the DT-based approach achieved a +0.72% increase in sessions for notification decision-making at LinkedIn by making notification recommendation more relevant.
- Abstract(参考訳): 通知は、タイムリーで適切な情報を提供するための重要なコミュニケーションチャネルである。
デリバリを最適化するには、メッセージユーティリティやユーザ疲労といった制約の下で、複雑なシーケンシャルな意思決定課題に対処する必要がある。
保守的Q-Learning(CQL)のようなオフライン強化学習(RL)手法がこの問題に適用されているが、不安定性、分散シフトに対する感受性、再現性制限、高次元の推薦設定における説明可能性の難しさなど、大規模に実践的な課題に直面している。
我々は、政策学習をリターン条件付き教師付き学習として再編成し、堅牢性、スケーラビリティ、モデリングの柔軟性を改善した決定変換器(DT)ベースのフレームワークを提案する。
コントリビューションには、CQLと実世界の比較、非エポゾディックなタスクに適したマルチリワード設計、リターン・トゥ・ゴ・コンディショニングのための量子レグレッションアプローチ、ニアリアルタイム推論のための円形バッファベースのシーケンス処理を備えたプロダクション・レシージャシステムなどが含まれます。
デプロイされた通知システムにおける大規模なオフラインおよびオンライン実験は、ユーザの疲労を最小限に抑えながら、通知ユーティリティとセッション全体のアクティビティを改善したことを示す。
マルチオブジェクトCQLベースのエージェントと比較して、DTベースのアプローチは、通知推奨をより関連付けることで、LinkedInの通知決定のためのセッション数が+0.72%増加した。
関連論文リスト
- Lightweight Task-Oriented Semantic Communication Empowered by Large-Scale AI Models [66.57755931421285]
大規模人工知能(LAI)モデルは、リアルタイム通信シナリオにおいて重大な課題を提起する。
本稿では,LAIモデルから知識を抽出・凝縮するために知識蒸留(KD)技術を活用することを提案する。
本稿では,反復推論の必要性を排除したプレストア圧縮機構を備えた高速蒸留法を提案する。
論文 参考訳(メタデータ) (2025-06-16T08:42:16Z) - Federated In-Context Learning: Iterative Refinement for Improved Answer Quality [62.72381208029899]
In-context Learning (ICL) では、入力に提供される例を活用することで、パラメータを変更することなく、言語モデルで応答を生成することができる。
我々は,反復的協調プロセスを通じてICLを強化する汎用フレームワークであるFederated In-Context Learning (Fed-ICL)を提案する。
Fed-ICLは、クライアントと中央サーバ間のマルチラウンドインタラクションを活用することで、応答を徐々に洗練し、モデルパラメータを送信することなく、応答品質を向上させる。
論文 参考訳(メタデータ) (2025-06-09T05:33:28Z) - Context-aware Constrained Reinforcement Learning Based Energy-Efficient Power Scheduling for Non-stationary XR Data Traffic [8.526578240549794]
ダウンリンク伝送では、データパケットをハードレイテンシ内で供給しながら電力資源を保存するために、効率的な電力スケジューリング(EEPS)が不可欠である。
従来のアルゴリズムではEEPSではpromiseを示すが、コンテキスト非定常データ制約と競合する。
これらの課題を克服するために,提案した文脈対応制約付き強化学習アルゴリズムを用いて,これらの課題を克服する。
論文 参考訳(メタデータ) (2025-03-12T13:37:19Z) - Retentive Decision Transformer with Adaptive Masking for Reinforcement Learning based Recommendation Systems [17.750449033873036]
Reinforcement Learning-based Recommender Systems (RLRS) は、様々なアプリケーションで約束されている。
しかし彼らは、特に報酬関数の作成や、既存の大規模なデータセットの活用など、課題に悩まされている。
オフラインRLRSの最近の進歩は、これらの2つの課題に対処するためのソリューションを提供する。
論文 参考訳(メタデータ) (2024-03-26T12:08:58Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Self-Sustaining Multiple Access with Continual Deep Reinforcement
Learning for Dynamic Metaverse Applications [17.436875530809946]
Metaverseは,さまざまな世界で構成される仮想環境の構築を目的とした,新たなパラダイムだ。
このような動的で複雑なシナリオに対処するためには、自己維持戦略を採用する方法が考えられる。
本稿では,知的エージェントのスループットを最大化するために,マルチチャネル環境におけるマルチアクセスの問題について検討する。
論文 参考訳(メタデータ) (2023-09-18T22:02:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。