論文の概要: Neural Risk-sensitive Satisficing in Contextual Bandits
- arxiv url: http://arxiv.org/abs/2501.08612v1
- Date: Wed, 15 Jan 2025 06:20:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-16 15:52:04.827577
- Title: Neural Risk-sensitive Satisficing in Contextual Bandits
- Title(参考訳): コンテキスト帯域におけるニューラルリスク感性満足度
- Authors: Shogo Ito, Tatsuji Takahashi, Yu Kono,
- Abstract要約: 文脈的包帯問題は、レコメンデーションシステムにおける課題を解決する効果的な枠組みを提供する。
より複雑な環境に対処するため,ニューラルネットワークをRegLinRSに組み込むニューラルリスク感性満足度(NeuralRS)を提案した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The contextual bandit problem, which is a type of reinforcement learning tasks, provides an effective framework for solving challenges in recommendation systems, such as satisfying real-time requirements, enabling personalization, addressing cold-start problems. However, contextual bandit algorithms face challenges since they need to handle large state-action spaces sequentially. These challenges include the high costs for learning and balancing exploration and exploitation, as well as large variations in performance that depend on the domain of application. To address these challenges, Tsuboya et~al. proposed the Regional Linear Risk-sensitive Satisficing (RegLinRS) algorithm. RegLinRS switches between exploration and exploitation based on how well the agent has achieved the target. However, the reward expectations in RegLinRS are linearly approximated based on features, which limits its applicability when the relationship between features and reward expectations is non-linear. To handle more complex environments, we proposed Neural Risk-sensitive Satisficing (NeuralRS), which incorporates neural networks into RegLinRS, and demonstrated its utility.
- Abstract(参考訳): 強化学習タスクの一種である文脈的包帯問題は、リアルタイム要件を満たすこと、パーソナライズを可能にすること、コールドスタート問題に対処することなど、レコメンデーションシステムにおける課題を解決する効果的な枠組みを提供する。
しかし、コンテキスト帯域幅アルゴリズムは、大きな状態-作用空間を逐次処理する必要があるため、課題に直面している。
これらの課題には、探索とエクスプロイトの学習とバランスのための高コストや、アプリケーションのドメインに依存するパフォーマンスの大きなバリエーションが含まれる。
これらの課題に対処するため、 Tsuboyaら。
Regional Linear Risk-sensitive Satisficing (RegLinRS) アルゴリズムを提案した。
RegLinRSは、エージェントがターゲットをどの程度うまく達成したかに基づいて、探索とエクスプロイトを切り替える。
しかし、RegLinRSの報奨期待は機能に基づいて線形に近似されるため、機能と報奨期待の関係が非線形である場合に適用性が制限される。
より複雑な環境に対処するため,ニューラルネットワークをRegLinRSに組み込んだニューラルリスク感性満足度(NeuralRS)を提案し,その実用性を実証した。
関連論文リスト
- ENFORCE: Exact Nonlinear Constrained Learning with Adaptive-depth Neural Projection [0.0]
ENFORCEは、非線形制約を正確に満たす予測を保証するニューラルネットワークアーキテクチャである。
適応深度ニューラルプロジェクションモジュールを構築し、その複雑さを動的に調整し、特定の問題と必要な許容レベルに適合させる。
論文 参考訳(メタデータ) (2025-02-10T18:52:22Z) - Communication Efficient Cooperative Edge AI via Event-Triggered Computation Offloading [34.18100643343979]
本稿では,効率的なレアイベント処理を優先する,チャネルトリガーによるイベントトリガーエッジ推論フレームワークを提案する。
提案手法は,従来のエッジ推論手法とは対照的に,より優れたレアイベント分類精度を実現し,通信オーバーヘッドを効果的に低減する。
論文 参考訳(メタデータ) (2025-01-01T15:55:59Z) - Hard-Constrained Neural Networks with Universal Approximation Guarantees [5.3663546125491735]
HardNetは、モデルキャパシティを犠牲にすることなく、本質的に厳しい制約を満たすニューラルネットワークを構築するためのフレームワークである。
ニューラルネットワークの普遍近似能力はHardNetが保持していることを示す。
論文 参考訳(メタデータ) (2024-10-14T17:59:24Z) - Learning to Solve Combinatorial Optimization under Positive Linear Constraints via Non-Autoregressive Neural Networks [103.78912399195005]
組合せ最適化(英: Combinatorial Optimization、CO)は、計算機科学、応用数学などにおける基本的な問題である。
本稿では, 正線形制約下でのCO問題の解法として, 非自己回帰ニューラルネットワーク群を設計する。
本研究では,施設位置,最大被覆率,旅行セールスマン問題を含む代表的CO問題の解決において,この枠組みの有効性を検証する。
論文 参考訳(メタデータ) (2024-09-06T14:58:31Z) - Joint Admission Control and Resource Allocation of Virtual Network Embedding via Hierarchical Deep Reinforcement Learning [69.00997996453842]
本稿では,仮想ネットワークの埋め込みにおいて,入出力制御と資源配分を併用して学習する深層強化学習手法を提案する。
HRL-ACRAは,受入率と長期平均収益の両面で,最先端のベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2024-06-25T07:42:30Z) - Reconfigurable Intelligent Surface (RIS)-Assisted Entanglement
Distribution in FSO Quantum Networks [62.87033427172205]
自由空間光(FSO)量子チャネルに依存する量子ネットワーク(QN)は、光ファイバー基盤の確立が困難でコストがかかる環境における量子アプリケーションをサポートすることができる。
エンタングルメント分布のための仮想視線を提供する費用効率の高いフレームワークとして,再構成可能なインテリジェントサーフェス(RIS)を用いたFSOベースのQNを提案する。
論文 参考訳(メタデータ) (2024-01-19T17:16:40Z) - A Risk-Averse Framework for Non-Stationary Stochastic Multi-Armed
Bandits [0.0]
医療や金融のような高ボラティリティの分野では、素直な報酬アプローチは学習問題の複雑さを正確に捉えないことが多い。
非定常環境で動作する適応型リスク認識戦略の枠組みを提案する。
論文 参考訳(メタデータ) (2023-10-24T19:29:13Z) - Neural Fields with Hard Constraints of Arbitrary Differential Order [61.49418682745144]
我々は、ニューラルネットワークに厳しい制約を課すための一連のアプローチを開発する。
制約は、ニューラルネットワークとそのデリバティブに適用される線形作用素として指定することができる。
私たちのアプローチは、広範囲の現実世界のアプリケーションで実証されています。
論文 参考訳(メタデータ) (2023-06-15T08:33:52Z) - Communication Efficient Distributed Learning for Kernelized Contextual
Bandits [58.78878127799718]
分散環境でのカーネル化されたコンテキスト帯域の学習における通信効率の課題に対処する。
我々は、エージェントが再現されたカーネルヒルベルト空間で協調的に探索できるようにすることにより、非線形報酬写像を考える。
我々は, 後悔とコミュニケーションの両コストにおいて, アルゴリズムがサブ線形レートを達成できることを厳格に証明した。
論文 参考訳(メタデータ) (2022-06-10T01:39:15Z) - Contextual Exploration Using a Linear Approximation Method Based on
Satisficing [0.0]
学習に必要な探索の量は、しばしば非常に多い。
深層強化学習はまた、人間がこれほど多くの探索を達成できないという超人的性能を持つ。
リスク感応性満足度(RS)の線形拡張である線形RS(LinRS)を提案する。
論文 参考訳(メタデータ) (2021-12-13T07:14:01Z) - EE-Net: Exploitation-Exploration Neural Networks in Contextual Bandits [52.98326168071513]
EE-Netは、新しい探索戦略を持つニューラルネットワークベースのバンドイットアプローチである。
EE-Net が $mathcalO(sqrtTlog T)$ regret を達成することを示す。
論文 参考訳(メタデータ) (2021-10-07T04:12:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。