Fugu-MT 論文翻訳(概要): Personalization for Web-based Services using Offline Reinforcement Learning

論文の概要: Personalization for Web-based Services using Offline Reinforcement Learning

arxiv url: http://arxiv.org/abs/2102.05612v1
Date: Wed, 10 Feb 2021 18:17:00 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-12 02:45:40.278004
Title: Personalization for Web-based Services using Offline Reinforcement Learning
Title（参考訳）: オフライン強化学習によるwebサービスのパーソナライズ
Authors: Pavlos Athanasios Apostolopoulos, Zehui Wang, Hanson Wang, Chad Zhou, Kittipat Virochsiri, Norm Zhou, Igor L. Markov
Abstract要約: モデルなしのオフライン強化学習(RL)を通じて政策を学習する上での課題に対処する。メジャーなソーシャルネットワークにおけるユーザ認証のためのプロダクションシステムにデプロイされ、長期的な目的を著しく改善する。
参考スコア（独自算出の注目度）: 2.162780715713874
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large-scale Web-based services present opportunities for improving UI policies based on observed user interactions. We address challenges of learning such policies through model-free offline Reinforcement Learning (RL) with off-policy training. Deployed in a production system for user authentication in a major social network, it significantly improves long-term objectives. We articulate practical challenges, compare several ML techniques, provide insights on training and evaluation of RL models, and discuss generalizations.
Abstract（参考訳）: 大規模Webベースのサービスは、観察されたユーザインタラクションに基づいてUIポリシーを改善する機会を提供する。モデルなしのオフライン強化学習(RL)を通じて政策を学習する上での課題に対処する。メジャーなソーシャルネットワークでユーザー認証の運用システムにデプロイすることで、長期的な目的を大幅に改善します。実践的な課題を明確にし、いくつかのML手法を比較し、RLモデルのトレーニングと評価に関する洞察を提供し、一般化について議論する。

関連論文リスト

Inverse Reinforcement Learning Meets Large Language Model Post-Training: Basics, Advances, and Opportunities [62.05713042908654]
本稿では,逆強化学習(IRL)のレンズによる大規模言語モデル(LLM)のアライメントの進歩について概観する。我々は、人間のデータからニューラル報酬モデルを構築する必要性を強調し、このパラダイムシフトの形式的および実践的意味について議論する。
論文参考訳（メタデータ） (2025-07-17T14:22:24Z)
ARPO:End-to-End Policy Optimization for GUI Agents with Experience Replay [88.74638385288773]
Agentic Replay Policy Optimizationは、複雑で長期のコンピュータタスクのパフォーマンスを改善する。本稿では,ベースラインエージェントの性能に基づいてタスクをフィルタリングするタスク選択戦略を提案する。 OSWorldベンチマークの実験では、ARPOが競争結果を達成することを示した。
論文参考訳（メタデータ） (2025-05-22T06:24:32Z)
Optimistic Learning for Communication Networks [16.33529267937042]
本チュートリアルでは,現代通信システムにおける資源管理フレームワークの決定エンジンとして,楽観的な学習(OpL)を提案する。我々は、OpLの基本概念、アルゴリズムおよび結果を紹介し、この理論のルーツについて議論し、最適化を定義し、達成するための異なるアプローチを示す。
論文参考訳（メタデータ） (2025-04-04T14:55:27Z)
LLM Post-Training: A Deep Dive into Reasoning Large Language Models [131.10969986056]
大規模言語モデル (LLMs) は自然言語処理の状況を変え、多様な応用をもたらした。ポストトレーニング手法により、LLMは知識を洗練させ、推論を改善し、事実の正確性を高め、ユーザの意図や倫理的配慮をより効果的に整合させることができる。
論文参考訳（メタデータ） (2025-02-28T18:59:54Z)
Large Language Model driven Policy Exploration for Recommender Systems [50.70228564385797]
静的ユーザデータに基づいてトレーニングされたオフラインRLポリシは、動的オンライン環境にデプロイされた場合、分散シフトに対して脆弱である。オンラインRLベースのRSも、トレーニングされていないポリシーや不安定なポリシーにユーザをさらけ出すリスクがあるため、運用デプロイメントの課題に直面している。大規模言語モデル(LLM)は、ユーザー目標と事前学習ポリシーをオフラインで模倣する有望なソリューションを提供する。 LLMから抽出したユーザの嗜好を利用した対話型学習ポリシー(iALP)を提案する。
論文参考訳（メタデータ） (2025-01-23T16:37:44Z)
Constraining Participation: Affordances of Feedback Features in Interfaces to Large Language Models [49.74265453289855]
大規模言語モデル(LLM)は、コンピュータ、Webブラウザ、ブラウザベースのインターフェースによるインターネット接続を持つ人なら誰でも利用できるようになった。本稿では,ChatGPTインタフェースにおける対話型フィードバック機能の可能性について検討し,ユーザ入力の形状やイテレーションへの参加について分析する。
論文参考訳（メタデータ） (2024-08-27T13:50:37Z)
Learn while Unlearn: An Iterative Unlearning Framework for Generative Language Models [52.03511469562013]
3つのコアコンポーネントで構成されるICU(Iterative Contrastive Unlearning)フレームワークを紹介する。知識未学習誘導モジュールは、未学習の損失を使用して、特定の知識を除去するためにターゲットとする。 Contrastive Learning Enhancementモジュールは、純粋な未学習の目標に対してモデルの表現力を保持する。イテレーティブ・アンラーニング・リファインメントモジュールは、進行中の評価と更新を通じて、アンラーニングプロセスを動的に調整する。
論文参考訳（メタデータ） (2024-07-25T07:09:35Z)
SUBER: An RL Environment with Simulated Human Behavior for Recommender Systems [18.716102193517315]
強化学習 (Reinforcement Learning, RL) はレコメンデーションシステムの領域で人気を集めている。この研究は、RLベースのレコメンデータシステムをトレーニングするためのモジュラーで斬新なフレームワークを導入している。 RL環境を含むソフトウェアはGitHubで公開されている。
論文参考訳（メタデータ） (2024-06-01T11:56:08Z)
LiMAML: Personalization of Deep Recommender Models via Meta Learning [13.69036196446634]
我々は、個人メンバーや他のエンティティのためのモデルのパーソナライズに適した革新的なメタラーニングソリューションを導入する。モデル非依存メタラーニング(MAML)アルゴリズムを用いて,最近のユーザインタラクションデータを用いて,タスクごとのサブネットワークを適応する。私たちのアプローチは、さまざまなLinkedInアプリケーションにまたがる、高度にパーソナライズされたAIモデルのデプロイを可能にしました。
論文参考訳（メタデータ） (2024-02-23T22:06:36Z)
Vision-Language Models Provide Promptable Representations for Reinforcement Learning [67.40524195671479]
視覚言語モデル(VLM)に符号化された多量の一般知識と索引可能な世界知識をインターネット規模で事前学習して具体的強化学習(RL)を行う新しい手法を提案する。提案手法では,共通意味的推論の表現にチェーン・オブ・シントを用いることで,新規シーンのポリシー性能を1.5倍向上できることを示す。
論文参考訳（メタデータ） (2024-02-05T00:48:56Z)
Benchmarking Robustness of Deep Reinforcement Learning approaches to Online Portfolio Management [0.0]
ポートフォリオ管理のための従来のDRLアルゴリズムの性能を評価するためのトレーニングおよび評価プロセスを提案する。その結果、ほとんどのディープ強化学習アルゴリズムは堅牢ではなく、バックテスト中の戦略の一般化が不十分で、急速に劣化していることがわかった。
論文参考訳（メタデータ） (2023-06-19T14:09:56Z)
ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [52.34951901588738]
我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。 Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文参考訳（メタデータ） (2023-06-12T05:10:10Z)
Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文参考訳（メタデータ） (2023-06-06T02:24:41Z)
Challenges and Opportunities in Offline Reinforcement Learning from Visual Observations [58.758928936316785]
連続的な行動空間を持つ視覚的観察からオフラインの強化学習は未探索のままである。 2つの一般的な視覚に基づくオンライン強化学習アルゴリズムの変更は、既存のオフラインRL法より優れていることを示す。
論文参考訳（メタデータ） (2022-06-09T22:08:47Z)
Hybrid Learning for Orchestrating Deep Learning Inference in Multi-user Edge-cloud Networks [3.7630209350186807]
ディープラーニングのためのコラボレーション型のエッジクラウドコンピューティングは、さまざまなパフォーマンスと効率を提供する。ディープラーニング推論オーケストレーション戦略では、最適なオーケストレーションポリシを見つけるために強化学習を採用している。我々は、最先端のRLベースの推論オーケストレーションを実験的に比較することで、HL戦略の有効性を実証する。
論文参考訳（メタデータ） (2022-02-21T21:50:50Z)
Interactive Search Based on Deep Reinforcement Learning [4.353144350714567]
このプロジェクトは主にオフライントレーニングのための仮想ユーザ環境を確立する。同時に,2クラスタリングに基づく強化学習アルゴリズムを改良して,推奨エージェントの行動空間と推奨経路空間を拡張することを試みた。
論文参考訳（メタデータ） (2020-12-09T15:23:53Z)
Dynamics Generalization via Information Bottleneck in Deep Reinforcement Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文参考訳（メタデータ） (2020-08-03T02:24:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。