論文の概要: MultiScale Contextual Bandits for Long Term Objectives
- arxiv url: http://arxiv.org/abs/2503.17674v1
- Date: Sat, 22 Mar 2025 07:03:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:34:53.212784
- Title: MultiScale Contextual Bandits for Long Term Objectives
- Title(参考訳): 長期目的のためのマルチスケールコンテキスト帯域
- Authors: Richa Rastogi, Yuta saito, Thorsten Joachims,
- Abstract要約: マルチスケール政策学習のフレームワークを導入し、AIシステムが複数の時間スケールでフィードバックを実行し、最適化する必要があることを文脈的に理解する。
我々は,MultiScale Off-Policy Bandit Learning (MSBL)を用いてフレームワークをインスタンス化し,レコメンダシステムとテキスト生成に関する3つのタスクにおいて,その有効性を示す。
- 参考スコア(独自算出の注目度): 36.85989221657821
- License:
- Abstract: The feedback that AI systems (e.g., recommender systems, chatbots) collect from user interactions is a crucial source of training data. While short-term feedback (e.g., clicks, engagement) is widely used for training, there is ample evidence that optimizing short-term feedback does not necessarily achieve the desired long-term objectives. Unfortunately, directly optimizing for long-term objectives is challenging, and we identify the disconnect in the timescales of short-term interventions (e.g., rankings) and the long-term feedback (e.g., user retention) as one of the key obstacles. To overcome this disconnect, we introduce the framework of MultiScale Policy Learning to contextually reconcile that AI systems need to act and optimize feedback at multiple interdependent timescales. For any two levels, our formulation selects the shorter-term objective at the next lower scale to optimize the longer-term objective at the next higher scale. As a result, the policies at all levels effectively optimize for the long-term. We instantiate the framework with MultiScale Off-Policy Bandit Learning (MSBL) and demonstrate its effectiveness on three tasks relating to recommender systems and text generation.
- Abstract(参考訳): AIシステム(リコメンデータシステム、チャットボットなど)がユーザインタラクションから収集するフィードバックは、トレーニングデータの重要なソースである。
短期フィードバック(例えば、クリック、エンゲージメント)はトレーニングに広く使用されているが、短期フィードバックの最適化が必ずしも望まれる長期的な目標を達成するとは限らないという証拠はたくさんある。
残念ながら、長期的目的を直接最適化することは困難であり、短期的介入(例えば、ランキング)と長期的フィードバック(例えば、ユーザ保持)の時間スケールにおける切断を重要な障害の一つとして特定する。
この切断を克服するために、我々は、AIシステムが複数の相互依存時間スケールでフィードバックを動作させ、最適化する必要があることを文脈的に理解するために、マルチスケールポリシー学習のフレームワークを導入する。
いずれのレベルにおいても,我々の定式化は,次の下位スケールで短期目標を選択し,次の上位スケールで長期目標を最適化する。
その結果、すべてのレベルにおけるポリシーは、長期にわたって効果的に最適化される。
我々は,MultiScale Off-Policy Bandit Learning (MSBL)を用いてフレームワークをインスタンス化し,レコメンダシステムとテキスト生成に関する3つのタスクにおいて,その有効性を示す。
関連論文リスト
- Hierarchical Reinforcement Learning for Temporal Abstraction of Listwise Recommendation [51.06031200728449]
我々はmccHRLと呼ばれる新しいフレームワークを提案し、リストワイドレコメンデーションにおける時間的抽象化のレベルを異なるものにする。
階層的な枠組みの中では、ハイレベルエージェントがユーザ知覚の進化を研究し、低レベルエージェントがアイテム選択ポリシーを作成している。
その結果,本手法による性能改善は,いくつかのよく知られたベースラインと比較して有意な結果が得られた。
論文 参考訳(メタデータ) (2024-09-11T17:01:06Z) - Strike the Balance: On-the-Fly Uncertainty based User Interactions for Long-Term Video Object Segmentation [23.417370317522106]
本稿では,対話的かつ半自動的なアプローチを橋渡しするビデオオブジェクトセグメンテーション(VOS)について紹介する。
関心対象の追跡期間を最大化しつつ,追跡期間の延長を最小限に抑えることを目的としている。
我々は,最近導入されたLVOSデータセットを用いて,多数の長期ビデオを提供するアプローチを評価した。
論文 参考訳(メタデータ) (2024-07-31T21:42:42Z) - Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。
我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文 参考訳(メタデータ) (2023-09-27T21:41:49Z) - Sequential Search with Off-Policy Reinforcement Learning [48.88165680363482]
本稿では,RNN学習フレームワークとアテンションモデルからなる,スケーラブルなハイブリッド学習モデルを提案する。
新たな最適化のステップとして、1つのRNNパスに複数の短いユーザシーケンスをトレーニングバッチ内に収める。
また、マルチセッションパーソナライズされた検索ランキングにおける非政治強化学習の利用についても検討する。
論文 参考訳(メタデータ) (2022-02-01T06:52:40Z) - Dynamic Embeddings for Interaction Prediction [2.5758502140236024]
推薦システム(RS)では、ユーザが対話する次の項目を予測することが、ユーザの保持に不可欠である。
近年,ユーザとアイテム間の相互相互作用を個別のユーザとアイテムの埋め込みを用いてモデル化する手法の有効性が示されている。
本稿では,DeePRedと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-11-10T16:04:46Z) - Learning Long-term Visual Dynamics with Region Proposal Interaction
Networks [75.06423516419862]
オブジェクト間およびオブジェクト環境間の相互作用を長距離にわたってキャプチャするオブジェクト表現を構築します。
単純だが効果的なオブジェクト表現のおかげで、我々の手法は先行手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2020-08-05T17:48:00Z) - Modeling Long-Term and Short-Term Interests with Parallel Attentions for
Session-based Recommendation [17.092823992007794]
セッションベースのレコメンダは通常、ユーザの進化する関心を探求します。
近年の注意機構の進歩により、この課題を解決するための最先端の手法が導かれた。
本稿では,セッションベースレコメンデーションのための並列注意ネットワークモデル(PAN)を提案する。
論文 参考訳(メタデータ) (2020-06-27T11:47:51Z) - Sequential Recommender via Time-aware Attentive Memory Network [67.26862011527986]
本稿では,注意機構と繰り返し単位を改善するための時間ゲーティング手法を提案する。
また,長期と短期の嗜好を統合するマルチホップ・タイムアウェア・アテンテーティブ・メモリ・ネットワークを提案する。
提案手法は,候補探索タスクに対してスケーラブルであり,ドット積に基づくTop-Kレコメンデーションのための潜在因数分解の非線形一般化とみなすことができる。
論文 参考訳(メタデータ) (2020-05-18T11:29:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。