論文の概要: Efficient Contextual Preferential Bayesian Optimization with Historical Examples
- arxiv url: http://arxiv.org/abs/2208.10300v3
- Date: Mon, 11 Aug 2025 11:32:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 13:42:22.437261
- Title: Efficient Contextual Preferential Bayesian Optimization with Historical Examples
- Title(参考訳): 歴史的事例を用いた効率的な文脈優先ベイズ最適化
- Authors: Farha A. Khan, Tanmay Chakraborty, Jörg P. Dietrich, Christian Wirth,
- Abstract要約: そこで本研究では,専門家の知識,過去の事例,サンプル要求の低減のためにユーティリティ空間に関する粗い情報を利用する,オフラインで解釈可能なユーティリティ学習手法を提案する。
提案手法は, 4領域にわたる標準ガウス過程とBOPEより優れ, 実世界で発生する偏りのあるサンプルであっても高い性能を示し, 専門家の入力が限られている。
- 参考スコア(独自算出の注目度): 0.9374652839580183
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: State-of-the-art multi-objective optimization often assumes a known utility function, learns it interactively, or computes the full Pareto front-each requiring costly expert input.~Real-world problems, however, involve implicit preferences that are hard to formalize. To reduce expert involvement, we propose an offline, interpretable utility learning method that uses expert knowledge, historical examples, and coarse information about the utility space to reduce sample requirements. We model uncertainty via a full Bayesian posterior and propagate it throughout the optimization process. Our method outperforms standard Gaussian processes and BOPE across four domains, showing strong performance even with biased samples, as encountered in the real-world, and limited expert input.
- Abstract(参考訳): 最先端の多目的最適化はしばしば既知のユーティリティ関数を仮定し、対話的に学習する。
しかし、現実の問題は、形式化が難しい暗黙の選好を伴っている。
専門家の関与を減らすために,専門家の知識,過去の事例,およびユーティリティ空間に関する粗い情報を用いて,サンプル要求を減らし,オフラインで解釈可能なユーティリティ学習手法を提案する。
我々は、完全なベイズ後部を通して不確実性をモデル化し、最適化過程を通してそれを伝播する。
提案手法は, 4領域にわたる標準ガウス過程とBOPEより優れ, 実世界で発生する偏りのあるサンプルであっても高い性能を示し, 専門家の入力が限られている。
関連論文リスト
- Learning Linear Utility Functions From Pairwise Comparison Queries [35.01228510505625]
線形効用関数のペア比較クエリによる学習可能性について検討する。
受動的学習環境では、線形ユーティリティは第一の目的に対して効率的に学習可能であることを示す。
この場合、第2の目的であっても効率よく学習できることを示し、ノイズフリーおよびノイズの多いクエリ応答設定のためのアルゴリズムを提示する。
論文 参考訳(メタデータ) (2024-05-04T08:43:45Z) - Sharing Knowledge in Multi-Task Deep Reinforcement Learning [57.38874587065694]
マルチタスク強化学習において、ディープニューラルネットワークを効果的に活用するためのタスク間の表現の共有の利点について検討する。
我々は,タスク間で表現を共有するのに便利な条件を強調する理論的保証を提供することで,これを証明している。
論文 参考訳(メタデータ) (2024-01-17T19:31:21Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Learning to Rank for Active Learning via Multi-Task Bilevel Optimization [29.207101107965563]
データ取得のための学習代理モデルを用いて、ラベルのないインスタンスのバッチを選択することを目的とした、アクティブな学習のための新しいアプローチを提案する。
このアプローチにおける重要な課題は、ユーティリティ関数の入力の一部を構成するデータの歴史が時間とともに増大するにつれて、よく一般化する取得関数を開発することである。
論文 参考訳(メタデータ) (2023-10-25T22:50:09Z) - Leveraging Prior Knowledge in Reinforcement Learning via Double-Sided
Bounds on the Value Function [4.48890356952206]
本稿では、値関数の任意の近似を用いて、関心の最適値関数上の二辺境界を導出する方法を示す。
連続状態とアクション空間のエラー解析でフレームワークを拡張します。
論文 参考訳(メタデータ) (2023-02-19T21:47:24Z) - Network Utility Maximization with Unknown Utility Functions: A
Distributed, Data-Driven Bilevel Optimization Approach [25.47492126908931]
既存のソリューションはほとんどの場合、各ユーザユーティリティ関数が知られて凹凸であると仮定する。
本稿では,ユーティリティ機能が不明な場合,ユーザに対して,どのようにリソースを割り当てるか,という問いに答える。
分散およびデータ駆動の双方向最適化アプローチを用いた新しいソリューションを提供する。
論文 参考訳(メタデータ) (2023-01-04T19:50:39Z) - Towards Sequence Utility Maximization under Utility Occupancy Measure [53.234101208024335]
データベースでは、ユーティリティは各パターンに対して柔軟な基準であるが、ユーティリティ共有を無視するため、より絶対的な基準である。
まず、まず、シーケンスデータに対するユーティリティの占有を定義し、高ユーティリティ・アクシデント・パターンマイニングの問題を提起する。
SuMU(Sequence Utility Maximization with Utility cccupancy measure)と呼ばれるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-20T17:28:53Z) - Offline Reinforcement Learning with Differentiable Function
Approximation is Provably Efficient [65.08966446962845]
歴史的データを用いて意思決定戦略を最適化することを目的としたオフライン強化学習は、現実の応用に広く適用されている。
微分関数クラス近似(DFA)を用いたオフライン強化学習の検討から一歩踏み出した。
最も重要なことは、悲観的な適合Q-ラーニングアルゴリズムを解析することにより、オフライン微分関数近似が有効であることを示すことである。
論文 参考訳(メタデータ) (2022-10-03T07:59:42Z) - TRAIL: Near-Optimal Imitation Learning with Suboptimal Data [100.83688818427915]
オフラインデータセットを使用してファクタードトランジションモデルを学習するトレーニング目標を提案する。
我々の理論的分析は、学習された潜在行動空間が下流模倣学習のサンプル効率を高めることを示唆している。
実際に潜伏行動空間を学習するために、エネルギーベースの遷移モデルを学ぶアルゴリズムTRAIL(Transition-Reparametrized Actions for Imitation Learning)を提案する。
論文 参考訳(メタデータ) (2021-10-27T21:05:00Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。