Fugu-MT 論文翻訳(概要): GLISp-r: A preference-based optimization algorithm with convergence guarantees

論文の概要: GLISp-r: A preference-based optimization algorithm with convergence guarantees

arxiv url: http://arxiv.org/abs/2202.01125v2
Date: Mon, 2 Oct 2023 08:39:18 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-03 21:38:33.791494
Title: GLISp-r: A preference-based optimization algorithm with convergence guarantees
Title（参考訳）: glisp-r:収束保証付き選好に基づく最適化アルゴリズム
Authors: Davide Previtali, Mirko Mazzoleni, Antonio Ferramosca, Fabio Previdi
Abstract要約: 本稿では、GLISp-rと呼ばれる好みに基づく最適化手法の拡張を提案する。 GLISp-rでは、MSRSにインスパイアされた新しい候補サンプルを探す際に使用する異なる基準を提案する。 GLISpと比較すると、GLISp-rは好みに基づく最適化問題の局所最適化に悩まされる可能性が低い。
参考スコア（独自算出の注目度）: 2.517173388598129
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Preference-based optimization algorithms are iterative procedures that seek the optimal calibration of a decision vector based only on comparisons between couples of different tunings. At each iteration, a human decision-maker expresses a preference between two calibrations (samples), highlighting which one, if any, is better than the other. The optimization procedure must use the observed preferences to find the tuning of the decision vector that is most preferred by the decision-maker, while also minimizing the number of comparisons. In this work, we formulate the preference-based optimization problem from a utility theory perspective. Then, we propose GLISp-r, an extension of a recent preference-based optimization procedure called GLISp. The latter uses a Radial Basis Function surrogate to describe the tastes of the decision-maker. Iteratively, GLISp proposes new samples to compare with the best calibration available by trading off exploitation of the surrogate model and exploration of the decision space. In GLISp-r, we propose a different criterion to use when looking for new candidate samples that is inspired by MSRS, a popular procedure in the black-box optimization framework. Compared to GLISp, GLISp-r is less likely to get stuck on local optima of the preference-based optimization problem. We motivate this claim theoretically, with a proof of global convergence, and empirically, by comparing the performances of GLISp and GLISp-r on several benchmark optimization problems.
Abstract（参考訳）: 選好に基づく最適化アルゴリズムは、複数の異なるチューニング間の比較のみに基づいて決定ベクトルの最適キャリブレーションを求める反復的な手順である。それぞれのイテレーションで、人間の意思決定者は、2つのキャリブレーション(サンプル)のどちらがどちらよりも優れているかを強調する。最適化手順は、観察された選好を使用して、意思決定者が最も好む決定ベクトルのチューニングを見つけなければならないが、比較の数を最小にする。本研究では,実用理論の観点から選好に基づく最適化問題を定式化する。そして、GLISpと呼ばれる最近の嗜好に基づく最適化手法の拡張であるGLISp-rを提案する。後者は、決定者の味を記述するためにラジアル基底関数サロゲートを使用する。反復的に、glispはサーロゲートモデルの活用と決定空間の探索を交換することで得られる最良のキャリブレーションと比較する新しいサンプルを提案する。 GLISp-rでは、ブラックボックス最適化フレームワークMSRSにインスパイアされた新しい候補サンプルを探す際に使用する異なる基準を提案する。 GLISpと比較すると、GLISp-rは好みに基づく最適化問題の局所最適化に悩まされる可能性が低い。我々は,いくつかのベンチマーク最適化問題に対する glisp と glisp-r の性能を比較することにより,この主張を理論上,大域収束の証明とともに動機づける。

関連論文リスト

Vector Optimization with Gaussian Process Bandits [7.049738935364297]
複数の目的を同時に考慮しなければならない学習問題は、工学、薬物設計、環境管理など、様々な分野においてしばしば発生する。複数のブラックボックスの目的関数を扱う従来の方法は、目的の選好を取り入れ、それに応じて解空間を探索することに制限がある。ガウス過程の帯域幅を用いてブラックボックスベクトル最適化を行う適応除去アルゴリズムであるガウス過程を用いたベクトル最適化(VOGP)を提案する。
論文参考訳（メタデータ） (2024-12-03T14:47:46Z)
An incremental preference elicitation-based approach to learning potentially non-monotonic preferences in multi-criteria sorting [53.36437745983783]
まず最適化モデルを構築し,非単調な選好をモデル化する。本稿では,情報量測定手法と質問選択戦略を考案し,各イテレーションにおいて最も情報に富む選択肢を特定する。 2つのインクリメンタルな選好に基づくアルゴリズムは、潜在的に単調な選好を学習するために開発された。
論文参考訳（メタデータ） (2024-09-04T14:36:20Z)
Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文参考訳（メタデータ） (2024-06-12T16:58:41Z)
Compact Optimality Verification for Optimization Proxies [15.761737742798157]
近年、パラメトリック最適化問題の入出力マッピングを近似する機械学習モデルへの関心が高まっている。本論文は,計算効率の優れた最適性検証のためのコンパクトな定式化を提案する。
論文参考訳（メタデータ） (2024-05-31T17:11:39Z)
Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文参考訳（メタデータ） (2024-05-26T05:38:50Z)
Principled Preferential Bayesian Optimization [22.269732173306192]
優先ベイズ最適化(BO)の問題について検討する。一対の候補解よりも優先的なフィードバックしか持たないブラックボックス関数を最適化することを目指している。この問題を解決するために,効率的な計算手法を用いた楽観的アルゴリズムを開発した。
論文参考訳（メタデータ） (2024-02-08T02:57:47Z)
Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文参考訳（メタデータ） (2024-02-01T18:51:54Z)
Dual-Directed Algorithm Design for Efficient Pure Exploration [11.492736493413103]
有限の選択肢からなる逐次適応実験の文脈における純粋探索問題を考える。サンプルの最適な割り当てに対する強い収束の概念の観点から、最適性の十分な条件を導出する。我々のアルゴリズムは、$epsilon$-best-armの識別としきい値の帯域幅問題に最適である。
論文参考訳（メタデータ） (2023-10-30T07:29:17Z)
An Empirical Evaluation of Zeroth-Order Optimization Methods on AI-driven Molecule Optimization [78.36413169647408]
分子目的を最適化するための様々なZO最適化手法の有効性について検討する。 ZO符号に基づく勾配降下(ZO-signGD)の利点を示す。本稿では,Guurcamol スイートから広く使用されているベンチマークタスクに対して,ZO 最適化手法の有効性を示す。
論文参考訳（メタデータ） (2022-10-27T01:58:10Z)
Optimizer Amalgamation [124.33523126363728]
私たちは、Amalgamationという新しい問題の研究を動機付けています。"Teacher"アマルガメーションのプールを、より強力な問題固有のパフォーマンスを持つ単一の"学生"にどのように組み合わせるべきなのでしょうか? まず、勾配降下による解析のプールをアマルガメートする3つの異なるメカニズムを定義する。また, プロセスの分散を低減するため, 目標を摂動させることでプロセスの安定化を図る。
論文参考訳（メタデータ） (2022-03-12T16:07:57Z)
A unified surrogate-based scheme for black-box and preference-based optimization [2.561649173827544]
ブラックボックスと嗜好に基づく最適化問題は密接に関連しており、同じアプローチのファミリを用いて解決可能であることを示す。一般的なMSRSフレームワークを一般化した最適化手法である一般化されたメトリック応答面(gMRS)アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-02-03T08:47:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。