論文の概要: Efficient Utility Function Learning for Multi-Objective Parameter
Optimization with Prior Knowledge
- arxiv url: http://arxiv.org/abs/2208.10300v1
- Date: Mon, 22 Aug 2022 13:26:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-23 12:37:16.826852
- Title: Efficient Utility Function Learning for Multi-Objective Parameter
Optimization with Prior Knowledge
- Title(参考訳): 事前知識を用いた多目的パラメータ最適化のための効率的なユーティリティ関数学習
- Authors: Farha A. Khan, J\"org P. Dietrich, Christian Wirth
- Abstract要約: 我々は、好みの学習によって専門家の知識を用いて、ユーティリティ関数をオフラインで学習する。
他の作品とは対照的に、我々は結果の選好だけでなく、実用関数空間に関する粗い情報も使います。
提案手法のサンプル効率と品質向上を4つの領域で示す。
- 参考スコア(独自算出の注目度): 0.225596179391365
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The current state-of-the-art in multi-objective optimization assumes either a
given utility function, learns a utility function interactively or tries to
determine the complete Pareto front, requiring a post elicitation of the
preferred result. However, result elicitation in real world problems is often
based on implicit and explicit expert knowledge, making it difficult to define
a utility function, whereas interactive learning or post elicitation requires
repeated and expensive expert involvement. To mitigate this, we learn a utility
function offline, using expert knowledge by means of preference learning. In
contrast to other works, we do not only use (pairwise) result preferences, but
also coarse information about the utility function space. This enables us to
improve the utility function estimate, especially when using very few results.
Additionally, we model the occurring uncertainties in the utility function
learning task and propagate them through the whole optimization chain. Our
method to learn a utility function eliminates the need of repeated expert
involvement while still leading to high-quality results. We show the sample
efficiency and quality gains of the proposed method in 4 domains, especially in
cases where the surrogate utility function is not able to exactly capture the
true expert utility function. We also show that to obtain good results, it is
important to consider the induced uncertainties and analyze the effect of
biased samples, which is a common problem in real world domains.
- Abstract(参考訳): マルチオブジェクト最適化における現在の最先端は、与えられたユーティリティ関数を仮定し、インタラクティブにユーティリティ関数を学習するか、または完全なParetoフロントを決定しようとする。
しかしながら、実世界の問題における結果誘発は、しばしば暗黙的かつ明示的な専門家の知識に基づいているため、ユーティリティ関数の定義が困難である。
これを軽減するため、好み学習によって専門家の知識を用いて、オフラインでユーティリティ関数を学習する。
他の作品とは対照的に、結果の選好(pairwise)だけでなく、ユーティリティ関数空間に関する粗い情報も使用しています。
これにより、特に非常に少ない結果を使用する場合、ユーティリティ関数の推定を改善することができる。
さらに,ユーティリティ関数学習タスクにおける不確かさをモデル化し,最適化チェーン全体を通して伝達する。
ユーティリティ関数を学習する手法は,高品質な結果をもたらす一方で,専門家の関与を繰り返す必要をなくす。
本稿では,提案手法のサンプル効率と品質向上を4つの領域で示し,特にサーロゲートユーティリティ関数が真のエキスパートユーティリティ関数を正確に捉えることができない場合について述べる。
また, 良好な結果を得るには, 誘導不確実性を検討し, 実世界領域で一般的な問題であるバイアスドサンプルの効果を分析することが重要であることを示した。
関連論文リスト
- Learning Linear Utility Functions From Pairwise Comparison Queries [35.01228510505625]
線形効用関数のペア比較クエリによる学習可能性について検討する。
受動的学習環境では、線形ユーティリティは第一の目的に対して効率的に学習可能であることを示す。
この場合、第2の目的であっても効率よく学習できることを示し、ノイズフリーおよびノイズの多いクエリ応答設定のためのアルゴリズムを提示する。
論文 参考訳(メタデータ) (2024-05-04T08:43:45Z) - Sharing Knowledge in Multi-Task Deep Reinforcement Learning [57.38874587065694]
マルチタスク強化学習において、ディープニューラルネットワークを効果的に活用するためのタスク間の表現の共有の利点について検討する。
我々は,タスク間で表現を共有するのに便利な条件を強調する理論的保証を提供することで,これを証明している。
論文 参考訳(メタデータ) (2024-01-17T19:31:21Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Learning to Rank for Active Learning via Multi-Task Bilevel Optimization [29.207101107965563]
データ取得のための学習代理モデルを用いて、ラベルのないインスタンスのバッチを選択することを目的とした、アクティブな学習のための新しいアプローチを提案する。
このアプローチにおける重要な課題は、ユーティリティ関数の入力の一部を構成するデータの歴史が時間とともに増大するにつれて、よく一般化する取得関数を開発することである。
論文 参考訳(メタデータ) (2023-10-25T22:50:09Z) - Leveraging Prior Knowledge in Reinforcement Learning via Double-Sided
Bounds on the Value Function [4.48890356952206]
本稿では、値関数の任意の近似を用いて、関心の最適値関数上の二辺境界を導出する方法を示す。
連続状態とアクション空間のエラー解析でフレームワークを拡張します。
論文 参考訳(メタデータ) (2023-02-19T21:47:24Z) - Network Utility Maximization with Unknown Utility Functions: A
Distributed, Data-Driven Bilevel Optimization Approach [25.47492126908931]
既存のソリューションはほとんどの場合、各ユーザユーティリティ関数が知られて凹凸であると仮定する。
本稿では,ユーティリティ機能が不明な場合,ユーザに対して,どのようにリソースを割り当てるか,という問いに答える。
分散およびデータ駆動の双方向最適化アプローチを用いた新しいソリューションを提供する。
論文 参考訳(メタデータ) (2023-01-04T19:50:39Z) - Towards Sequence Utility Maximization under Utility Occupancy Measure [53.234101208024335]
データベースでは、ユーティリティは各パターンに対して柔軟な基準であるが、ユーティリティ共有を無視するため、より絶対的な基準である。
まず、まず、シーケンスデータに対するユーティリティの占有を定義し、高ユーティリティ・アクシデント・パターンマイニングの問題を提起する。
SuMU(Sequence Utility Maximization with Utility cccupancy measure)と呼ばれるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-20T17:28:53Z) - Offline Reinforcement Learning with Differentiable Function
Approximation is Provably Efficient [65.08966446962845]
歴史的データを用いて意思決定戦略を最適化することを目的としたオフライン強化学習は、現実の応用に広く適用されている。
微分関数クラス近似(DFA)を用いたオフライン強化学習の検討から一歩踏み出した。
最も重要なことは、悲観的な適合Q-ラーニングアルゴリズムを解析することにより、オフライン微分関数近似が有効であることを示すことである。
論文 参考訳(メタデータ) (2022-10-03T07:59:42Z) - TRAIL: Near-Optimal Imitation Learning with Suboptimal Data [100.83688818427915]
オフラインデータセットを使用してファクタードトランジションモデルを学習するトレーニング目標を提案する。
我々の理論的分析は、学習された潜在行動空間が下流模倣学習のサンプル効率を高めることを示唆している。
実際に潜伏行動空間を学習するために、エネルギーベースの遷移モデルを学ぶアルゴリズムTRAIL(Transition-Reparametrized Actions for Imitation Learning)を提案する。
論文 参考訳(メタデータ) (2021-10-27T21:05:00Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。