Fugu-MT 論文翻訳(概要): Interactive Hyperparameter Optimization in Multi-Objective Problems via Preference Learning

論文の概要: Interactive Hyperparameter Optimization in Multi-Objective Problems via Preference Learning

arxiv url: http://arxiv.org/abs/2309.03581v3
Date: Thu, 11 Jan 2024 14:46:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-13 03:28:28.183398
Title: Interactive Hyperparameter Optimization in Multi-Objective Problems via Preference Learning
Title（参考訳）: 選好学習による多目的問題における対話型ハイパーパラメータ最適化
Authors: Joseph Giovanelli, Alexander Tornede, Tanja Tornede, Marius Lindauer
Abstract要約: 我々は多目的機械学習(ML)に適した人間中心型対話型HPO手法を提案する。ユーザが自分のニーズに最も適した指標を推測する代わりに、私たちのアプローチは自動的に適切な指標を学習します。
参考スコア（独自算出の注目度）: 65.51668094117802
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Hyperparameter optimization (HPO) is important to leverage the full potential of machine learning (ML). In practice, users are often interested in multi-objective (MO) problems, i.e., optimizing potentially conflicting objectives, like accuracy and energy consumption. To tackle this, the vast majority of MO-ML algorithms return a Pareto front of non-dominated machine learning models to the user. Optimizing the hyperparameters of such algorithms is non-trivial as evaluating a hyperparameter configuration entails evaluating the quality of the resulting Pareto front. In literature, there are known indicators that assess the quality of a Pareto front (e.g., hypervolume, R2) by quantifying different properties (e.g., volume, proximity to a reference point). However, choosing the indicator that leads to the desired Pareto front might be a hard task for a user. In this paper, we propose a human-centered interactive HPO approach tailored towards multi-objective ML leveraging preference learning to extract desiderata from users that guide the optimization. Instead of relying on the user guessing the most suitable indicator for their needs, our approach automatically learns an appropriate indicator. Concretely, we leverage pairwise comparisons of distinct Pareto fronts to learn such an appropriate quality indicator. Then, we optimize the hyperparameters of the underlying MO-ML algorithm towards this learned indicator using a state-of-the-art HPO approach. In an experimental study targeting the environmental impact of ML, we demonstrate that our approach leads to substantially better Pareto fronts compared to optimizing based on a wrong indicator pre-selected by the user, and performs comparable in the case of an advanced user knowing which indicator to pick.
Abstract（参考訳）: ハイパーパラメータ最適化(HPO)は機械学習(ML)の潜在能力を最大限活用するために重要である。実際には、ユーザは多目的(mo)の問題、すなわち、精度やエネルギー消費といった潜在的に矛盾する目標を最適化することに関心を持つことが多い。これを解決するために、MO-MLアルゴリズムの大多数は、非支配的な機械学習モデルのParetoをユーザに返す。このようなアルゴリズムのハイパーパラメータの最適化は、ハイパーパラメータの設定を評価することは、パレートフロントの品質を評価することを伴うため、自明ではない。文献では、異なる性質(例えば体積、基準点に近い)を定量化することでパレートフロント(例えば、ハイパーボリューム、R2)の品質を評価する既知の指標が存在する。しかし、望ましいparetoフロントにつながるインジケータを選択するのは、ユーザーにとっては難しい作業かもしれません。本稿では、好み学習を利用した多目的MLに適した人間中心型対話型HPO手法を提案し、最適化を導くユーザからデシダラタを抽出する。ユーザが最も適切な指標を推測する代わりに、このアプローチは自動的に適切な指標を学習します。具体的には、異なるパレートフロントのペアワイズ比較を利用して、このような適切な品質指標を学習する。そして,最新のHPO手法を用いて,基礎となるMO-MLアルゴリズムのハイパーパラメータをこの学習指標に最適化する。 mlの環境影響を対象とする実験研究において,提案手法がユーザの選択した誤った指標に基づく最適化に比べて,パレートフロントが大幅に向上することを示すとともに,ユーザが選択すべき指標を知っている場合と同等の性能を発揮することを実証した。

関連論文リスト

Gradient-Adaptive Policy Optimization: Towards Multi-Objective Alignment of Large Language Models [19.559468441956714]
Reinforcement Learning from Human Feedbackは、大きな言語モデルと人間の好みを整合させる強力なテクニックとして登場した。人的価値アライメントは多目的最適化問題であり、潜在的な競合する対象の集合を最大化することを目的としている。我々は,LLMを様々な好み分布に整合させるために,多段降下を用いた新しい微調整パラダイムであるGAPOを紹介した。
論文参考訳（メタデータ） (2025-07-02T17:25:26Z)
Mitigating Hallucination Through Theory-Consistent Symmetric Multimodal Preference Optimization [58.64721525687295]
マルチモーダル大言語モデル(MLLM)における幻覚を緩和するための効果的なアプローチとして、直接選好最適化(DPO)が登場している。我々は、直接選好監督(応答対)を伴う対称選好学習を行うシンメトリ・マルチモーダル選好最適化(SymMPO)を提案する。従来の順序的嗜好学習に加えて、SymMPOは、左右の選好ペア間の選好ギャップを定量的に調節する、選好マージン整合性損失を導入している。
論文参考訳（メタデータ） (2025-06-13T12:29:15Z)
Multi-Level Aware Preference Learning: Enhancing RLHF for Complex Multi-Instruction Tasks [81.44256822500257]
RLHFは、人工知能システムと人間の好みを結びつける主要なアプローチとして登場した。 RLHFは、複雑なマルチインストラクションタスクに直面すると、不十分なコンプライアンス機能を示す。本稿では,マルチインストラクション能力を向上させる新しいMAPL(Multi-level Aware Preference Learning)フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-19T08:33:11Z)
Self-Improvement Towards Pareto Optimality: Mitigating Preference Conflicts in Multi-Objective Alignment [74.25832963097658]
マルチオブジェクトアライメント(MOA)は、応答を複数の人間の嗜好目標に合わせることを目的としている。 DPOをベースとしたMOAアプローチは、データに広範囲にわたる優先的対立に悩まされている。
論文参考訳（メタデータ） (2025-02-20T08:27:00Z)
Provably Efficient Multi-Objective Bandit Algorithms under Preference-Centric Customization [24.533662423325943]
明示的なユーザ嗜好の存在下で、嗜好を意識したMO-MABフレームワークについて検討する。これは、明示的なユーザの好みを持つカスタマイズされたMO-MAB最適化に関する最初の理論的研究である。
論文参考訳（メタデータ） (2025-02-19T06:06:13Z)
UNEM: UNrolled Generalized EM for Transductive Few-Shot Learning [35.62208317531141]
我々は「最適化学習」とも呼ばれるアンロールパラダイムを提唱し紹介する。我々のアンローリングアプローチは、様々な統計的特徴分布と事前学習パラダイムをカバーしている。本稿では,下流画像分類作業の細粒度を網羅した包括的実験について報告する。
論文参考訳（メタデータ） (2024-12-21T19:01:57Z)
Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。 DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文参考訳（メタデータ） (2024-08-14T11:29:47Z)
Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文参考訳（メタデータ） (2024-06-04T20:33:22Z)
Hyperparameter Importance Analysis for Multi-Objective AutoML [14.336028105614824]
本稿では,多目的ハイパーパラメータ最適化の文脈におけるハイパーパラメータの重要性を評価するための最初の手法を提案する。具体的には、目的のa-prioriスキャラライゼーションを計算し、異なる目的のトレードオフに対するハイパーパラメータの重要性を決定する。本研究は,MOOタスクにおけるハイパーパラメータチューニングのための貴重なガイダンスを提供するとともに,複雑な最適化シナリオにおけるHPI理解の促進にも寄与する。
論文参考訳（メタデータ） (2024-05-13T11:00:25Z)
Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。 RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文参考訳（メタデータ） (2024-02-12T22:47:57Z)
Multi-Objective Bayesian Optimization with Active Preference Learning [18.066263838953223]
本稿では,多目的最適化 (MOO) 問題において最も望ましい解を特定するためのベイズ最適化 (BO) 手法を提案する。また、意思決定者(DM)との相互作用コストを最小限に抑えるため、選好推定のためのアクティブラーニング戦略を提案する。
論文参考訳（メタデータ） (2023-11-22T15:24:36Z)
Multi-objective hyperparameter optimization with performance uncertainty [62.997667081978825]
本稿では,機械学習アルゴリズムの評価における不確実性を考慮した多目的ハイパーパラメータ最適化の結果について述べる。木構造型Parzen Estimator(TPE)のサンプリング戦略と、ガウス過程回帰(GPR)と異種雑音の訓練後に得られたメタモデルを組み合わせる。 3つの解析的テスト関数と3つのML問題の実験結果は、多目的TPEとGPRよりも改善したことを示している。
論文参考訳（メタデータ） (2022-09-09T14:58:43Z)
Fair and Green Hyperparameter Optimization via Multi-objective and Multiple Information Source Bayesian Optimization [0.19116784879310028]
FanG-HPOは、大規模なデータセット(別名情報ソース)のサブセットを使用して、精度と公正性の双方の安価な近似を得る。実験では、2つのベンチマーク(フェアネス)データセットと2つの機械学習アルゴリズムが検討されている。
論文参考訳（メタデータ） (2022-05-18T10:07:21Z)
Self-Evolutionary Optimization for Pareto Front Learning [34.17125297176668]
マルチタスク問題に対する多目的最適化(MOO)手法が提案されている。最近のMOO法は、単一の統一モデルで複数の最適解(パレートフロント)を近似する。 PFLは複数の目的を持つ別のMOO問題に再変換可能であることを示し、それぞれがタスクの好みの重みに対応していることを示す。
論文参考訳（メタデータ） (2021-10-07T13:38:57Z)
Learning MDPs from Features: Predict-Then-Optimize for Sequential Decision Problems by Reinforcement Learning [52.74071439183113]
我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。 2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
論文参考訳（メタデータ） (2021-06-06T23:53:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。