論文の概要: Efficient Contextual Preferential Bayesian Optimization with Historical Examples
- arxiv url: http://arxiv.org/abs/2208.10300v4
- Date: Tue, 30 Sep 2025 07:12:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:03.789685
- Title: Efficient Contextual Preferential Bayesian Optimization with Historical Examples
- Title(参考訳): 歴史的事例を用いた効率的な文脈優先ベイズ最適化
- Authors: Farha A. Khan, Tanmay Chakraborty, Jörg P. Dietrich, Christian Wirth,
- Abstract要約: そこで本研究では,専門家の知識,過去の事例,サンプル要求の低減のためにユーティリティ空間に関する粗い情報を利用する,オフラインで解釈可能なユーティリティ学習手法を提案する。
提案手法は, 4領域にわたる標準ガウス過程とBOPEより優れ, 実世界で発生する偏りのあるサンプルであっても高い性能を示し, 専門家の入力が限られている。
- 参考スコア(独自算出の注目度): 0.5249805590164902
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: State-of-the-art multi-objective optimization often assumes a known utility function, learns it interactively, or computes the full Pareto front-each requiring costly expert input.~Real-world problems, however, involve implicit preferences that are hard to formalize. To reduce expert involvement, we propose an offline, interpretable utility learning method that uses expert knowledge, historical examples, and coarse information about the utility space to reduce sample requirements. We model uncertainty via a full Bayesian posterior and propagate it throughout the optimization process. Our method outperforms standard Gaussian processes and BOPE across four domains, showing strong performance even with biased samples, as encountered in the real-world, and limited expert input.
- Abstract(参考訳): 最先端の多目的最適化はしばしば既知のユーティリティ関数を仮定し、対話的に学習する。
しかし、現実の問題は、形式化が難しい暗黙の選好を伴っている。
専門家の関与を減らすために,専門家の知識,過去の事例,およびユーティリティ空間に関する粗い情報を用いて,サンプル要求を減らし,オフラインで解釈可能なユーティリティ学習手法を提案する。
我々は、完全なベイズ後部を通して不確実性をモデル化し、最適化過程を通してそれを伝播する。
提案手法は, 4領域にわたる標準ガウス過程とBOPEより優れ, 実世界で発生する偏りのあるサンプルであっても高い性能を示し, 専門家の入力が限られている。
関連論文リスト
- Prompts Generalize with Low Data: Non-vacuous Generalization Bounds for Optimizing Prompts with More Informative Priors [26.84417698402442]
このような広範な成功は、データや分布に依存した難易度を慎重に検討することで、より完全に説明できる、と我々は主張する。
我々は、より有用な事前処理によるデータスカースプロンプト最適化において、空でない新しい一般化境界を導出する。
論文 参考訳(メタデータ) (2025-10-09T16:32:46Z) - FoMEMO: Towards Foundation Models for Expensive Multi-objective Optimization [19.69959362934787]
本稿では,FoMEMOと呼ばれる新しいパラダイムを提案する。
実世界で広範囲にわたるドメイン実験にアクセスするのではなく、数億の合成データの多様なセットで基礎モデルを事前訓練することで、未知の問題への適応性が向上することを示した。
論文 参考訳(メタデータ) (2025-09-03T12:00:24Z) - A Novel Unified Parametric Assumption for Nonconvex Optimization [53.943470475510196]
非最適化は機械学習の中心であるが、一般の非凸性は弱い収束を保証するため、他方に比べて悲観的すぎる。
非凸アルゴリズムに新しい統一仮定を導入する。
論文 参考訳(メタデータ) (2025-02-17T21:25:31Z) - Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。
我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。
実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文 参考訳(メタデータ) (2024-06-12T16:58:41Z) - Learning Linear Utility Functions From Pairwise Comparison Queries [35.01228510505625]
線形効用関数のペア比較クエリによる学習可能性について検討する。
受動的学習環境では、線形ユーティリティは第一の目的に対して効率的に学習可能であることを示す。
この場合、第2の目的であっても効率よく学習できることを示し、ノイズフリーおよびノイズの多いクエリ応答設定のためのアルゴリズムを提示する。
論文 参考訳(メタデータ) (2024-05-04T08:43:45Z) - Human-Algorithm Collaborative Bayesian Optimization for Engineering Systems [0.0]
我々は、協調ベイズ最適化のためのアプローチを概説することで、データ駆動意思決定ループに人間を再導入する。
我々の手法は、人間は連続的な選択よりも離散的な選択をより効率的に行うことができるという仮説を生かしている。
本稿では, バイオプロセス最適化やリアクトル幾何設計を含む, 応用および数値ケーススタディにまたがるアプローチを実証する。
論文 参考訳(メタデータ) (2024-04-16T23:17:04Z) - Enhanced Bayesian Optimization via Preferential Modeling of Abstract
Properties [49.351577714596544]
本研究では,非測定抽象特性に関する専門家の嗜好を代理モデルに組み込むための,人間とAIの協調型ベイズフレームワークを提案する。
優先判断において、誤った/誤解を招く専門家バイアスを処理できる効率的な戦略を提供する。
論文 参考訳(メタデータ) (2024-02-27T09:23:13Z) - Sharing Knowledge in Multi-Task Deep Reinforcement Learning [57.38874587065694]
マルチタスク強化学習において、ディープニューラルネットワークを効果的に活用するためのタスク間の表現の共有の利点について検討する。
我々は,タスク間で表現を共有するのに便利な条件を強調する理論的保証を提供することで,これを証明している。
論文 参考訳(メタデータ) (2024-01-17T19:31:21Z) - Sample Efficient Preference Alignment in LLMs via Active Exploration [63.84454768573154]
良い政策を最も効率的に特定するために、人間のフィードバックを得るコンテキストをしばしば選択できるという事実を活用します。
本稿では,データを効率的に選択する能動的探索アルゴリズムを提案する。
提案手法は,複数の言語モデルと4つの実世界のデータセットに対する人間の嗜好の限られたサンプルを用いて,ベースラインよりも優れる。
論文 参考訳(メタデータ) (2023-12-01T00:54:02Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Learning to Rank for Active Learning via Multi-Task Bilevel Optimization [29.207101107965563]
データ取得のための学習代理モデルを用いて、ラベルのないインスタンスのバッチを選択することを目的とした、アクティブな学習のための新しいアプローチを提案する。
このアプローチにおける重要な課題は、ユーティリティ関数の入力の一部を構成するデータの歴史が時間とともに増大するにつれて、よく一般化する取得関数を開発することである。
論文 参考訳(メタデータ) (2023-10-25T22:50:09Z) - Leveraging Prior Knowledge in Reinforcement Learning via Double-Sided
Bounds on the Value Function [4.48890356952206]
本稿では、値関数の任意の近似を用いて、関心の最適値関数上の二辺境界を導出する方法を示す。
連続状態とアクション空間のエラー解析でフレームワークを拡張します。
論文 参考訳(メタデータ) (2023-02-19T21:47:24Z) - Network Utility Maximization with Unknown Utility Functions: A
Distributed, Data-Driven Bilevel Optimization Approach [25.47492126908931]
既存のソリューションはほとんどの場合、各ユーザユーティリティ関数が知られて凹凸であると仮定する。
本稿では,ユーティリティ機能が不明な場合,ユーザに対して,どのようにリソースを割り当てるか,という問いに答える。
分散およびデータ駆動の双方向最適化アプローチを用いた新しいソリューションを提供する。
論文 参考訳(メタデータ) (2023-01-04T19:50:39Z) - Towards Sequence Utility Maximization under Utility Occupancy Measure [53.234101208024335]
データベースでは、ユーティリティは各パターンに対して柔軟な基準であるが、ユーティリティ共有を無視するため、より絶対的な基準である。
まず、まず、シーケンスデータに対するユーティリティの占有を定義し、高ユーティリティ・アクシデント・パターンマイニングの問題を提起する。
SuMU(Sequence Utility Maximization with Utility cccupancy measure)と呼ばれるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-20T17:28:53Z) - Offline Reinforcement Learning with Differentiable Function
Approximation is Provably Efficient [65.08966446962845]
歴史的データを用いて意思決定戦略を最適化することを目的としたオフライン強化学習は、現実の応用に広く適用されている。
微分関数クラス近似(DFA)を用いたオフライン強化学習の検討から一歩踏み出した。
最も重要なことは、悲観的な適合Q-ラーニングアルゴリズムを解析することにより、オフライン微分関数近似が有効であることを示すことである。
論文 参考訳(メタデータ) (2022-10-03T07:59:42Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - TRAIL: Near-Optimal Imitation Learning with Suboptimal Data [100.83688818427915]
オフラインデータセットを使用してファクタードトランジションモデルを学習するトレーニング目標を提案する。
我々の理論的分析は、学習された潜在行動空間が下流模倣学習のサンプル効率を高めることを示唆している。
実際に潜伏行動空間を学習するために、エネルギーベースの遷移モデルを学ぶアルゴリズムTRAIL(Transition-Reparametrized Actions for Imitation Learning)を提案する。
論文 参考訳(メタデータ) (2021-10-27T21:05:00Z) - Towards the D-Optimal Online Experiment Design for Recommender Selection [18.204325860752768]
ユーザとレコメンデーションの両方が、報酬に有益なコンテキスト機能を持っているため、最適なオンライン実験を見つけることは簡単ではない。
本研究では,古典統計学のemphD-Optimal設計を活用し,探索時の最大情報ゲインを実現する。
次に、Walmart.comでのデプロイメントの例を使って、提案手法の実践的洞察と効果を十分に説明します。
論文 参考訳(メタデータ) (2021-10-23T04:30:27Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z) - Incorporating Expert Prior Knowledge into Experimental Design via
Posterior Sampling [58.56638141701966]
実験者は、グローバルな最適な場所に関する知識を得ることができる。
グローバル最適化に関する専門家の事前知識をベイズ最適化に組み込む方法は不明である。
効率の良いベイズ最適化手法は、大域的最適の後方分布の後方サンプリングによって提案されている。
論文 参考訳(メタデータ) (2020-02-26T01:57:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。