論文の概要: Sequential Learning-based IaaS Composition
- arxiv url: http://arxiv.org/abs/2102.12598v1
- Date: Wed, 24 Feb 2021 23:16:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-27 01:05:08.667958
- Title: Sequential Learning-based IaaS Composition
- Title(参考訳): 逐次学習に基づくIaaS構成
- Authors: Sajib Mistry, Sheik Mohammad Mostakim Fattah, and Athman Bouguettaya
- Abstract要約: 時間条件優先ネットワーク(TempCP-net)に含まれる決定変数
時系列類似度尺度に基づくtextitk-d tree indexingを用いて、リクエストの集合のグローバル嗜好ランキングを算出する。
構成における要求の受け入れや拒否に要求の長さを適用する、オンポリシーに基づく逐次選択学習手法を設計する。
- 参考スコア(独自算出の注目度): 0.11470070927586014
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel IaaS composition framework that selects an optimal set of
consumer requests according to the provider's qualitative preferences on
long-term service provisions. Decision variables are included in the temporal
conditional preference networks (TempCP-net) to represent qualitative
preferences for both short-term and long-term consumers. The global preference
ranking of a set of requests is computed using a \textit{k}-d tree indexing
based temporal similarity measure approach. We propose an extended
three-dimensional Q-learning approach to maximize the global preference
ranking. We design the on-policy based sequential selection learning approach
that applies the length of request to accept or reject requests in a
composition. The proposed on-policy based learning method reuses historical
experiences or policies of sequential optimization using an agglomerative
clustering approach. Experimental results prove the feasibility of the proposed
framework.
- Abstract(参考訳): プロバイダの長期サービス規定に関する定性的な好みに応じて、消費者要求の最適なセットを選択する新しいIaaS構成フレームワークを提案する。
意思決定変数は時間条件選好ネットワーク(tempcp-net)に含まれ、短期消費者と長期消費者の両方の質的選好を表す。
リクエストの集合のグローバルな選好ランキングは、 \textit{k}-d tree indexing based temporal similarity measure approach を用いて計算される。
グローバルな選好ランキングを最大化する3次元Q-ラーニング手法を提案する。
構成における要求の受け入れや拒否に要求の長さを適用する、オンポリシーに基づく逐次選択学習手法を設計する。
提案手法は,アグロメレーティブクラスタリング手法を用いて,時系列最適化の歴史的経験や政策を再利用する。
実験結果は、提案されたフレームワークの実現可能性を証明する。
関連論文リスト
- Hierarchical Reinforcement Learning for Temporal Abstraction of Listwise Recommendation [51.06031200728449]
我々はmccHRLと呼ばれる新しいフレームワークを提案し、リストワイドレコメンデーションにおける時間的抽象化のレベルを異なるものにする。
階層的な枠組みの中では、ハイレベルエージェントがユーザ知覚の進化を研究し、低レベルエージェントがアイテム選択ポリシーを作成している。
その結果,本手法による性能改善は,いくつかのよく知られたベースラインと比較して有意な結果が得られた。
論文 参考訳(メタデータ) (2024-09-11T17:01:06Z) - An incremental preference elicitation-based approach to learning potentially non-monotonic preferences in multi-criteria sorting [53.36437745983783]
まず最適化モデルを構築し,非単調な選好をモデル化する。
本稿では,情報量測定手法と質問選択戦略を考案し,各イテレーションにおいて最も情報に富む選択肢を特定する。
2つのインクリメンタルな選好に基づくアルゴリズムは、潜在的に単調な選好を学習するために開発された。
論文 参考訳(メタデータ) (2024-09-04T14:36:20Z) - Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization [105.3612692153615]
命令応答対に対して協調的に好みを抽出する新しい軸を提案する。
命令と応答ペアを併用することで、大きな言語モデルのアライメントを大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-03-31T02:05:40Z) - SA-LSPL:Sequence-Aware Long- and Short- Term Preference Learning for next POI recommendation [19.40796508546581]
Point of Interest(POI)推奨は、特定のタイミングでユーザに対してPOIを推奨することを目的としている。
提案する手法は,SA-LSPL(Sequence-Aware Long- and Short-Term Preference Learning)である。
論文 参考訳(メタデータ) (2024-03-30T13:40:25Z) - Sample Complexity of Preference-Based Nonparametric Off-Policy
Evaluation with Deep Networks [58.469818546042696]
我々は、OPEのサンプル効率を人間の好みで研究し、その統計的保証を確立する。
ReLUネットワークのサイズを適切に選択することにより、マルコフ決定過程において任意の低次元多様体構造を活用できることが示される。
論文 参考訳(メタデータ) (2023-10-16T16:27:06Z) - A Parametric Class of Approximate Gradient Updates for Policy
Optimization [47.69337420768319]
我々は、勾配形式とスケーリング関数の限定的な選択の観点から、基礎となる更新を再表現する統一的な視点を開発する。
我々は、収束速度と最終的な結果品質の両方の利点をもたらすことができる方法で、既存のアルゴリズムを一般化する、新しいが、動機のよい更新を得る。
論文 参考訳(メタデータ) (2022-06-17T01:28:38Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Probabilistic Planning with Preferences over Temporal Goals [21.35365462532568]
本稿では,時間目標に対する質的選好を規定する形式言語と,システムにおける選好に基づく計画手法を提案する。
自動理論モデルを用いて,提案した仕様は,各結果がサブゴールの時間列の集合を記述する場合の,異なる結果集合に対する嗜好を表現することができる。
我々は,可能な結果以上のプロセスが与えられた場合の選好満足度の価値を定義し,ラベル付きマルコフ決定過程における時間制約付き確率計画のためのアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-03-26T14:26:40Z) - A study of the Multicriteria decision analysis based on the time-series
features and a TOPSIS method proposal for a tensorial approach [1.3750624267664155]
本稿では, 時系列の特徴(依存性, ばらつきなど)に基づいて, 選択肢をランク付けする新しい手法を提案する。
この新しいアプローチでは、データは3次元で構造化され、テキストテンソルのようなより複雑なデータ構造を必要とする。
計算結果から,有意義な意思決定情報を考慮することで,新たな視点から選択肢をランク付けすることが可能であることが示唆された。
論文 参考訳(メタデータ) (2020-10-21T14:37:02Z) - Stochastic batch size for adaptive regularization in deep network
optimization [63.68104397173262]
ディープラーニングフレームワークにおける機械学習問題に適用可能な適応正規化を取り入れた一階最適化アルゴリズムを提案する。
一般的なベンチマークデータセットに適用した従来のネットワークモデルに基づく画像分類タスクを用いて,提案アルゴリズムの有効性を実証的に実証した。
論文 参考訳(メタデータ) (2020-04-14T07:54:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。