論文の概要: Online Learning with Costly Features in Non-stationary Environments
- arxiv url: http://arxiv.org/abs/2307.09388v1
- Date: Tue, 18 Jul 2023 16:13:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-19 13:43:02.499132
- Title: Online Learning with Costly Features in Non-stationary Environments
- Title(参考訳): 非定常環境における費用対効果を用いたオンライン学習
- Authors: Saeed Ghoorchian, Evgenii Kortukov, Setareh Maghsudi
- Abstract要約: シーケンシャルな意思決定の問題では、長期的な報酬を最大化することが第一の目標である。
現実世界の問題では、有益な情報を集めるのにしばしばコストがかかる。
時間内にサブ線形後悔を保証するアルゴリズムを開発する。
- 参考スコア(独自算出の注目度): 6.009759445555003
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Maximizing long-term rewards is the primary goal in sequential
decision-making problems. The majority of existing methods assume that side
information is freely available, enabling the learning agent to observe all
features' states before making a decision. In real-world problems, however,
collecting beneficial information is often costly. That implies that, besides
individual arms' reward, learning the observations of the features' states is
essential to improve the decision-making strategy. The problem is aggravated in
a non-stationary environment where reward and cost distributions undergo abrupt
changes over time. To address the aforementioned dual learning problem, we
extend the contextual bandit setting and allow the agent to observe subsets of
features' states. The objective is to maximize the long-term average gain,
which is the difference between the accumulated rewards and the paid costs on
average. Therefore, the agent faces a trade-off between minimizing the cost of
information acquisition and possibly improving the decision-making process
using the obtained information. To this end, we develop an algorithm that
guarantees a sublinear regret in time. Numerical results demonstrate the
superiority of our proposed policy in a real-world scenario.
- Abstract(参考訳): 長期報酬の最大化は、逐次的な意思決定問題の第一目標である。
既存の手法の多くは、サイド情報が自由に利用可能であると仮定し、学習エージェントが決定する前にすべての特徴の状態を監視することができる。
しかし、現実世界の問題では、有益な情報を集めることはしばしばコストがかかる。
これは、個々の武器の報酬に加えて、特徴状態の観察を学ぶことが意思決定戦略を改善するために不可欠であることを意味する。
問題は、報酬とコスト分布が時間とともに突然変化する非定常環境において悪化する。
上記のデュアルラーニング問題に対処するために,コンテキストバンディット設定を拡張し,エージェントが特徴のサブセットを観察できるようにする。
目的は長期平均利得を最大化することであり、これは蓄積された報酬と平均的な有償コストの差である。
これにより、情報取得コストの最小化と、得られた情報を用いた意思決定プロセスの改善とのトレードオフに直面する。
この目的のために、時間内にサブ線形後悔を保証するアルゴリズムを開発する。
実世界のシナリオにおいて提案した政策の優位性を示す。
関連論文リスト
- Active Learning for Fair and Stable Online Allocations [6.23798328186465]
我々は、オンラインリソース割り当てプロセスの各エポックにおいて、エージェントの特定のサブセットからのフィードバックを検討する。
提案アルゴリズムは,様々な測度に対して,時系列のサブ線形な後悔境界を提供する。
我々は,効率的な意思決定には広範なフィードバックは必要とせず,様々な問題クラスに対して効率的な結果をもたらすことを示した。
論文 参考訳(メタデータ) (2024-06-20T23:23:23Z) - Learning to Cover: Online Learning and Optimization with Irreversible Decisions [50.5775508521174]
後悔は$Thetaleft(mfrac12cdotfrac11-2-Tright)$で半直線的に成長するので、指数関数的に$Theta(sqrtm)$に収束する。
これらの調査結果は、限定的なオンライン学習と最適化の利点を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-06-20T23:00:25Z) - Learning to Schedule Online Tasks with Bandit Feedback [7.671139712158846]
オンラインタスクスケジューリングは、クラウドコンピューティングやクラウドソーシングにおけるタスク集約型アプリケーションにおいて重要な役割を果たす。
本稿では,二重最適化学習に基づくRobins-Monro(DOL-RM)アルゴリズムを提案する。
DOL-RMは、報酬対コスト比の楽観的な推定と決定モジュールを組み込んだ学習モジュールを統合する。
論文 参考訳(メタデータ) (2024-02-26T10:11:28Z) - Online Decision Mediation [72.80902932543474]
意思決定支援アシスタントを学習し、(好奇心)専門家の行動と(不完全)人間の行動の仲介役として機能することを検討する。
臨床診断では、完全に自律的な機械行動は倫理的余裕を超えることが多い。
論文 参考訳(メタデータ) (2023-10-28T05:59:43Z) - Bayesian Inverse Transition Learning for Offline Settings [30.10905852013852]
強化学習は、医療や教育などの領域におけるシーケンシャルな意思決定に一般的に用いられる。
我々は、遷移力学の後方分布を確実に学習するために、デシダラタを捕捉する新しい制約ベースのアプローチを提案する。
その結果、制約を用いることで、高いパフォーマンスのポリシーを学習し、異なるデータセットに対するポリシーのばらつきを著しく低減することを示した。
論文 参考訳(メタデータ) (2023-08-09T17:08:29Z) - Learning to Incentivize Information Acquisition: Proper Scoring Rules
Meet Principal-Agent Model [64.94131130042275]
インセンティブ付き情報取得問題について検討し、主治官がエージェントを雇って代理情報を収集する。
UCBアルゴリズムをモデルに適合させる,実証可能なサンプル効率の良いアルゴリズムを設計する。
本アルゴリズムは,主役の最適利益に対する微妙な推定手順と,所望のエージェントの行動にインセンティブを与える保守的な補正手法を特徴とする。
論文 参考訳(メタデータ) (2023-03-15T13:40:16Z) - Information-Gathering in Latent Bandits [79.6953033727455]
本稿では,潜伏バンドにおける情報収集手法を提案する。
我々は、各州に対するエージェントの信念から、最高の腕を選ぶことは、より高い後悔を引き起こすことを示した。
また,腕を慎重に選択することで,状態分布の推定精度が向上することを示した。
論文 参考訳(メタデータ) (2022-07-08T01:15:12Z) - Reinforcement Learning with Efficient Active Feature Acquisition [59.91808801541007]
実生活では、情報取得は患者の医療検査に該当する可能性がある。
本稿では,アクティブな特徴獲得ポリシーを学習するモデルに基づく強化学習フレームワークを提案する。
この成功の鍵は、部分的に観察された状態から高品質な表現を学ぶ新しい逐次変分自動エンコーダである。
論文 参考訳(メタデータ) (2020-11-02T08:46:27Z) - Cost-Sensitive Portfolio Selection via Deep Reinforcement Learning [100.73223416589596]
深層強化学習を用いたコスト依存型ポートフォリオ選択手法を提案する。
具体的には、価格系列パターンと資産相関の両方を抽出するために、新しい2ストリームポートフォリオポリシーネットワークを考案した。
蓄積したリターンを最大化し、強化学習によるコストの両立を抑えるため、新たなコスト感受性報酬関数が開発された。
論文 参考訳(メタデータ) (2020-03-06T06:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。