Fugu-MT 論文翻訳(概要): Sequential Learning-based IaaS Composition

論文の概要: Sequential Learning-based IaaS Composition

arxiv url: http://arxiv.org/abs/2102.12598v1
Date: Wed, 24 Feb 2021 23:16:01 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-27 01:05:08.667958
Title: Sequential Learning-based IaaS Composition
Title（参考訳）: 逐次学習に基づくIaaS構成
Authors: Sajib Mistry, Sheik Mohammad Mostakim Fattah, and Athman Bouguettaya
Abstract要約: 時間条件優先ネットワーク(TempCP-net)に含まれる決定変数時系列類似度尺度に基づくtextitk-d tree indexingを用いて、リクエストの集合のグローバル嗜好ランキングを算出する。構成における要求の受け入れや拒否に要求の長さを適用する、オンポリシーに基づく逐次選択学習手法を設計する。
参考スコア（独自算出の注目度）: 0.11470070927586014
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose a novel IaaS composition framework that selects an optimal set of consumer requests according to the provider's qualitative preferences on long-term service provisions. Decision variables are included in the temporal conditional preference networks (TempCP-net) to represent qualitative preferences for both short-term and long-term consumers. The global preference ranking of a set of requests is computed using a \textit{k}-d tree indexing based temporal similarity measure approach. We propose an extended three-dimensional Q-learning approach to maximize the global preference ranking. We design the on-policy based sequential selection learning approach that applies the length of request to accept or reject requests in a composition. The proposed on-policy based learning method reuses historical experiences or policies of sequential optimization using an agglomerative clustering approach. Experimental results prove the feasibility of the proposed framework.
Abstract（参考訳）: プロバイダの長期サービス規定に関する定性的な好みに応じて、消費者要求の最適なセットを選択する新しいIaaS構成フレームワークを提案する。意思決定変数は時間条件選好ネットワーク(tempcp-net)に含まれ、短期消費者と長期消費者の両方の質的選好を表す。リクエストの集合のグローバルな選好ランキングは、 \textit{k}-d tree indexing based temporal similarity measure approach を用いて計算される。グローバルな選好ランキングを最大化する3次元Q-ラーニング手法を提案する。構成における要求の受け入れや拒否に要求の長さを適用する、オンポリシーに基づく逐次選択学習手法を設計する。提案手法は,アグロメレーティブクラスタリング手法を用いて,時系列最適化の歴史的経験や政策を再利用する。実験結果は、提案されたフレームワークの実現可能性を証明する。

関連論文リスト

How Sampling Shapes LLM Alignment: From One-Shot Optima to Iterative Dynamics [65.67654005892469]
適切なインスタンス依存サンプリングは、より強力なランキング保証を得られる一方で、スキュードオン政治サンプリングは、構造化された嗜好の下で過剰な濃度を誘導できることを示す。次に、学習したポリシーが将来のサンプリングおよび参照ポリシーにフィードバックする反復的なアライメントダイナミクスを分析する。我々の理論的な洞察は直接選好最適化にまで拡張され、我々が捉えた現象はより広範な選好アライメント手法に共通していることを示している。
論文参考訳（メタデータ） (2026-02-12T17:11:08Z)
Personalized Recommendations via Active Utility-based Pairwise Sampling [1.704905100460915]
単純かつ直感的なペアワイズ比較から好みを学習するユーティリティベースのフレームワークを提案する。本研究の中心的な貢献は,嗜好評価のための新規なユーティリティベースアクティブサンプリング戦略である。
論文参考訳（メタデータ） (2025-08-12T19:09:33Z)
Dynamic Feature Selection based on Rule-based Learning for Explainable Classification with Uncertainty Quantification [0.7874708385247353]
動的特徴選択(DFS)は、従来の静的特徴選択に代わる魅力的な選択肢を提供する。 DFSはサンプル毎に機能選択をカスタマイズし、各ケースの意思決定プロセスに関する洞察を提供する。
論文参考訳（メタデータ） (2025-08-04T16:21:43Z)
Towards Human-like Preference Profiling in Sequential Recommendation [42.100841285901474]
RecPOは、シーケンシャルなレコメンデーションのための優先順位最適化フレームワークである。これは、推定された嗜好階層と時間信号に基づいて適応的な報酬マージンを利用する。タイムリーな満足感、コヒーレントな嗜好の維持、変化する状況下での識別の行使など、人間の意思決定の重要な特徴を反映している。
論文参考訳（メタデータ） (2025-06-02T21:09:29Z)
Integrating Response Time and Attention Duration in Bayesian Preference Learning for Multiple Criteria Decision Aiding [2.9457161327910693]
本稿では,意思決定支援のための行動規範を取り入れたベイズ選好学習フレームワークについて紹介する。このフレームワークは、ペアワイズ比較、応答時間、注意期間を統合して、意思決定プロセスに関する洞察を深めます。
論文参考訳（メタデータ） (2025-04-21T08:01:44Z)
Hierarchical Reinforcement Learning for Temporal Abstraction of Listwise Recommendation [51.06031200728449]
我々はmccHRLと呼ばれる新しいフレームワークを提案し、リストワイドレコメンデーションにおける時間的抽象化のレベルを異なるものにする。階層的な枠組みの中では、ハイレベルエージェントがユーザ知覚の進化を研究し、低レベルエージェントがアイテム選択ポリシーを作成している。その結果,本手法による性能改善は,いくつかのよく知られたベースラインと比較して有意な結果が得られた。
論文参考訳（メタデータ） (2024-09-11T17:01:06Z)
An incremental preference elicitation-based approach to learning potentially non-monotonic preferences in multi-criteria sorting [53.36437745983783]
まず最適化モデルを構築し,非単調な選好をモデル化する。本稿では,情報量測定手法と質問選択戦略を考案し,各イテレーションにおいて最も情報に富む選択肢を特定する。 2つのインクリメンタルな選好に基づくアルゴリズムは、潜在的に単調な選好を学習するために開発された。
論文参考訳（メタデータ） (2024-09-04T14:36:20Z)
Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization [105.3612692153615]
命令応答対に対して協調的に好みを抽出する新しい軸を提案する。命令と応答ペアを併用することで、大きな言語モデルのアライメントを大幅に向上させることができる。
論文参考訳（メタデータ） (2024-03-31T02:05:40Z)
SA-LSPL:Sequence-Aware Long- and Short- Term Preference Learning for next POI recommendation [19.40796508546581]
Point of Interest(POI)推奨は、特定のタイミングでユーザに対してPOIを推奨することを目的としている。提案する手法は,SA-LSPL(Sequence-Aware Long- and Short-Term Preference Learning)である。
論文参考訳（メタデータ） (2024-03-30T13:40:25Z)
Sample Complexity of Preference-Based Nonparametric Off-Policy Evaluation with Deep Networks [58.469818546042696]
我々は、OPEのサンプル効率を人間の好みで研究し、その統計的保証を確立する。 ReLUネットワークのサイズを適切に選択することにより、マルコフ決定過程において任意の低次元多様体構造を活用できることが示される。
論文参考訳（メタデータ） (2023-10-16T16:27:06Z)
Vague Preference Policy Learning for Conversational Recommendation [48.868921530958666]
会話レコメンデーションシステムは通常、ユーザが明確な好みを持っていると仮定し、潜在的に過度なフィルタリングにつながる。本稿では,Vag Preference Multi-round Conversational Recommendation (VPMCR) シナリオを紹介する。我々の研究は、ユーザの内在する曖昧さと相対的な意思決定プロセスを調整し、現実の応用性を向上させることでCRSを前進させます。
論文参考訳（メタデータ） (2023-06-07T14:57:21Z)
A Parametric Class of Approximate Gradient Updates for Policy Optimization [47.69337420768319]
我々は、勾配形式とスケーリング関数の限定的な選択の観点から、基礎となる更新を再表現する統一的な視点を開発する。我々は、収束速度と最終的な結果品質の両方の利点をもたらすことができる方法で、既存のアルゴリズムを一般化する、新しいが、動機のよい更新を得る。
論文参考訳（メタデータ） (2022-06-17T01:28:38Z)
Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。局所探索のための政策勾配は、しばしばランダムな摂動から得られる。目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文参考訳（メタデータ） (2021-06-22T16:07:02Z)
Probabilistic Planning with Preferences over Temporal Goals [21.35365462532568]
本稿では,時間目標に対する質的選好を規定する形式言語と,システムにおける選好に基づく計画手法を提案する。自動理論モデルを用いて,提案した仕様は,各結果がサブゴールの時間列の集合を記述する場合の,異なる結果集合に対する嗜好を表現することができる。我々は,可能な結果以上のプロセスが与えられた場合の選好満足度の価値を定義し,ラベル付きマルコフ決定過程における時間制約付き確率計画のためのアルゴリズムを開発する。
論文参考訳（メタデータ） (2021-03-26T14:26:40Z)
A study of the Multicriteria decision analysis based on the time-series features and a TOPSIS method proposal for a tensorial approach [1.3750624267664155]
本稿では, 時系列の特徴(依存性, ばらつきなど)に基づいて, 選択肢をランク付けする新しい手法を提案する。この新しいアプローチでは、データは3次元で構造化され、テキストテンソルのようなより複雑なデータ構造を必要とする。計算結果から,有意義な意思決定情報を考慮することで,新たな視点から選択肢をランク付けすることが可能であることが示唆された。
論文参考訳（メタデータ） (2020-10-21T14:37:02Z)
Stochastic batch size for adaptive regularization in deep network optimization [63.68104397173262]
ディープラーニングフレームワークにおける機械学習問題に適用可能な適応正規化を取り入れた一階最適化アルゴリズムを提案する。一般的なベンチマークデータセットに適用した従来のネットワークモデルに基づく画像分類タスクを用いて,提案アルゴリズムの有効性を実証的に実証した。
論文参考訳（メタデータ） (2020-04-14T07:54:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。