Fugu-MT 論文翻訳(概要): GLISp-r: A preference-based optimization algorithm with convergence guarantees

論文の概要: GLISp-r: A preference-based optimization algorithm with convergence guarantees

arxiv url: http://arxiv.org/abs/2202.01125v1
Date: Wed, 2 Feb 2022 16:34:15 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-03 15:22:04.962491
Title: GLISp-r: A preference-based optimization algorithm with convergence guarantees
Title（参考訳）: glisp-r:収束保証付き選好に基づく最適化アルゴリズム
Authors: Davide Previtali, Mirko Mazzoleni, Antonio Ferramosca, Fabio Previdi
Abstract要約: 我々は、GLISpと呼ばれる好みに基づく最適化手順の拡張であるGLISp-rを提案する。 GLISp-rでは、MSRSにインスパイアされた新しい候補サンプルを探す際に使用する異なる基準を提案する。 GLISpと比較すると、GLISp-rは好みに基づく最適化問題の局所的な問題に悩まされる可能性が低い。
参考スコア（独自算出の注目度）: 2.561649173827544
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Preference-based optimization algorithms are iterative procedures that seek the optimal value for a decision variable based only on comparisons between couples of different samples. At each iteration, a human decision-maker is asked to express a preference between two samples, highlighting which one, if any, is better than the other. The optimization procedure must use the observed preferences to find the value of the decision variable that is most preferred by the human decision-maker, while also minimizing the number of comparisons. In this work, we propose GLISp-r, an extension of a recent preference-based optimization procedure called GLISp. The latter uses a Radial Basis Function surrogate to describe the tastes of the individual. Iteratively, GLISp proposes new samples to compare with the current best candidate by trading off exploitation of the surrogate model and exploration of the decision space. In GLISp-r, we propose a different criterion to use when looking for a new candidate sample that is inspired by MSRS, a popular procedure in the black-box optimization framework (which is closely related to the preference-based one). Compared to GLISp, GLISp-r is less likely to get stuck on local optimizers of the preference-based optimization problem. We motivate this claim theoretically, with a proof of convergence, and empirically, by comparing the performances of GLISp and GLISp-r on different benchmark optimization problems.
Abstract（参考訳）: 選好に基づく最適化アルゴリズムは、異なるサンプルのカップル間の比較のみに基づいて決定変数の最適値を求める反復的な手順である。それぞれのイテレーションで、人間の意思決定者は2つのサンプル間の好みを表現するように求められ、どちらがどちらかがどちらよりも優れているかを強調する。最適化手順は、人間の意思決定者が最も好む決定変数の値を見つけるのに観察された選好を用いるとともに、比較の数を最小にする。本稿では、GLISpと呼ばれる最近の好みに基づく最適化手法の拡張であるGLISp-rを提案する。後者は、個人の嗜好を記述するために放射状基底関数surrogateを使用する。反復的に、glispはサーロゲートモデルのエクスプロイトと決定空間の探索を交換することで、現在のベスト候補と比較する新しいサンプルを提案する。 GLISp-rでは、ブラックボックス最適化フレームワーク(嗜好に基づく手法と密接に関連している)のMSRSにインスパイアされた新しい候補サンプルを探す際に使用する異なる基準を提案する。 GLISpと比較すると、GLISp-rは好みに基づく最適化問題の局所最適化に悩まされる可能性が低い。我々は、GLISpとGLISp-rの性能を異なるベンチマーク最適化問題で比較することにより、この主張を理論的に、収束の証明とともに、実証的に、動機付けする。

関連論文リスト

Vector Optimization with Gaussian Process Bandits [7.049738935364297]
複数の目的を同時に考慮しなければならない学習問題は、工学、薬物設計、環境管理など、様々な分野においてしばしば発生する。複数のブラックボックスの目的関数を扱う従来の方法は、目的の選好を取り入れ、それに応じて解空間を探索することに制限がある。ガウス過程の帯域幅を用いてブラックボックスベクトル最適化を行う適応除去アルゴリズムであるガウス過程を用いたベクトル最適化(VOGP)を提案する。
論文参考訳（メタデータ） (2024-12-03T14:47:46Z)
An incremental preference elicitation-based approach to learning potentially non-monotonic preferences in multi-criteria sorting [53.36437745983783]
まず最適化モデルを構築し,非単調な選好をモデル化する。本稿では,情報量測定手法と質問選択戦略を考案し,各イテレーションにおいて最も情報に富む選択肢を特定する。 2つのインクリメンタルな選好に基づくアルゴリズムは、潜在的に単調な選好を学習するために開発された。
論文参考訳（メタデータ） (2024-09-04T14:36:20Z)
Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文参考訳（メタデータ） (2024-06-12T16:58:41Z)
Compact Optimality Verification for Optimization Proxies [15.761737742798157]
近年、パラメトリック最適化問題の入出力マッピングを近似する機械学習モデルへの関心が高まっている。本論文は,計算効率の優れた最適性検証のためのコンパクトな定式化を提案する。
論文参考訳（メタデータ） (2024-05-31T17:11:39Z)
Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文参考訳（メタデータ） (2024-05-26T05:38:50Z)
Principled Preferential Bayesian Optimization [22.269732173306192]
優先ベイズ最適化(BO)の問題について検討する。一対の候補解よりも優先的なフィードバックしか持たないブラックボックス関数を最適化することを目指している。この問題を解決するために,効率的な計算手法を用いた楽観的アルゴリズムを開発した。
論文参考訳（メタデータ） (2024-02-08T02:57:47Z)
Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文参考訳（メタデータ） (2024-02-01T18:51:54Z)
Dual-Directed Algorithm Design for Efficient Pure Exploration [11.492736493413103]
有限の選択肢からなる逐次適応実験の文脈における純粋探索問題を考える。サンプルの最適な割り当てに対する強い収束の概念の観点から、最適性の十分な条件を導出する。我々のアルゴリズムは、$epsilon$-best-armの識別としきい値の帯域幅問題に最適である。
論文参考訳（メタデータ） (2023-10-30T07:29:17Z)
An Empirical Evaluation of Zeroth-Order Optimization Methods on AI-driven Molecule Optimization [78.36413169647408]
分子目的を最適化するための様々なZO最適化手法の有効性について検討する。 ZO符号に基づく勾配降下(ZO-signGD)の利点を示す。本稿では,Guurcamol スイートから広く使用されているベンチマークタスクに対して,ZO 最適化手法の有効性を示す。
論文参考訳（メタデータ） (2022-10-27T01:58:10Z)
Optimizer Amalgamation [124.33523126363728]
私たちは、Amalgamationという新しい問題の研究を動機付けています。"Teacher"アマルガメーションのプールを、より強力な問題固有のパフォーマンスを持つ単一の"学生"にどのように組み合わせるべきなのでしょうか? まず、勾配降下による解析のプールをアマルガメートする3つの異なるメカニズムを定義する。また, プロセスの分散を低減するため, 目標を摂動させることでプロセスの安定化を図る。
論文参考訳（メタデータ） (2022-03-12T16:07:57Z)
A unified surrogate-based scheme for black-box and preference-based optimization [2.561649173827544]
ブラックボックスと嗜好に基づく最適化問題は密接に関連しており、同じアプローチのファミリを用いて解決可能であることを示す。一般的なMSRSフレームワークを一般化した最適化手法である一般化されたメトリック応答面(gMRS)アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-02-03T08:47:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。