論文の概要: Offline Model-Based Optimization by Learning to Rank
- arxiv url: http://arxiv.org/abs/2410.11502v1
- Date: Tue, 15 Oct 2024 11:15:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:04:48.157156
- Title: Offline Model-Based Optimization by Learning to Rank
- Title(参考訳): ランク付け学習によるオフラインモデルに基づく最適化
- Authors: Rong-Xi Tan, Ke Xue, Shen-Huan Lyu, Haopu Shang, Yao Wang, Yaoyuan Wang, Sheng Fu, Chao Qian,
- Abstract要約: 我々は、平均二乗誤差(MSE)で訓練された回帰モデルは、オフラインモデルに基づく最適化の第一目標とうまく一致していないと論じる。
そこで本稿では,学習手法のランク付けに活用し,相対的なスコアに基づいて有望な設計を優先順位付けするランキングベースモデルを提案する。
- 参考スコア(独自算出の注目度): 26.21886715050762
- License:
- Abstract: Offline model-based optimization (MBO) aims to identify a design that maximizes a black-box function using only a fixed, pre-collected dataset of designs and their corresponding scores. A common approach in offline MBO is to train a regression-based surrogate model by minimizing mean squared error (MSE) and then find the best design within this surrogate model by different optimizers (e.g., gradient ascent). However, a critical challenge is the risk of out-of-distribution errors, i.e., the surrogate model may typically overestimate the scores and mislead the optimizers into suboptimal regions. Prior works have attempted to address this issue in various ways, such as using regularization techniques and ensemble learning to enhance the robustness of the model, but it still remains. In this paper, we argue that regression models trained with MSE are not well-aligned with the primary goal of offline MBO, which is to select promising designs rather than to predict their scores precisely. Notably, if a surrogate model can maintain the order of candidate designs based on their relative score relationships, it can produce the best designs even without precise predictions. To validate it, we conduct experiments to compare the relationship between the quality of the final designs and MSE, finding that the correlation is really very weak. In contrast, a metric that measures order-maintaining quality shows a significantly stronger correlation. Based on this observation, we propose learning a ranking-based model that leverages learning to rank techniques to prioritize promising designs based on their relative scores. We show that the generalization error on ranking loss can be well bounded. Empirical results across diverse tasks demonstrate the superior performance of our proposed ranking-based models than twenty existing methods.
- Abstract(参考訳): オフラインモデルベース最適化(MBO)は、固定された事前コンパイルされた設計データセットとその対応するスコアのみを用いてブラックボックス関数を最大化する設計を特定することを目的としている。
オフラインMBOにおける一般的なアプローチは、平均二乗誤差(MSE)を最小化して回帰ベースの代理モデルを訓練し、異なる最適化器(例えば勾配上昇)によってこの代理モデルの中で最良の設計を見つけることである。
しかし、重要な課題は、分配外エラーのリスクである。つまり、サロゲートモデルは通常スコアを過大評価し、オプティマイザを最適以下の領域に誤誘導する。
それまでの研究では、モデルの堅牢性を高めるために正規化技術やアンサンブル学習など、様々な方法でこの問題に対処しようと試みてきたが、まだ残っている。
本稿では,MSEを用いてトレーニングした回帰モデルが,スコアを正確に予測するよりも,期待できる設計を選択することを目的としたオフラインMBOの第一目標と整合していないことを論じる。
特に、サロゲートモデルが相対的なスコア関係に基づいて候補設計の順序を維持することができれば、正確な予測なしに最良の設計を作成できる。
これを検証するために、最終設計の品質とMSEの関係を比較する実験を行い、相関が非常に弱いことを発見した。
対照的に、秩序維持品質を測定する計量は、非常に強い相関を示す。
本研究は,学習手法のランク付けに活用し,相対的なスコアに基づいて有望な設計を優先順位付けするランキングベースモデルを提案する。
ランキング損失に対する一般化誤差は十分有界であることを示す。
多様なタスクにまたがる実験結果から,提案したランキングモデルの性能は,既存の20手法よりも優れていた。
関連論文リスト
- Margin Matching Preference Optimization: Enhanced Model Alignment with Granular Feedback [64.67540769692074]
人間のフィードバックからの強化学習など、アライメント技術で微調整された大規模言語モデル(LLM)は、これまでで最も有能なAIシステムの開発に役立っている。
マージンマッチング選好最適化(MMPO)と呼ばれる手法を導入し、相対的な品質マージンを最適化し、LLMポリシーと報酬モデルを改善する。
人間とAIの両方のフィードバックデータによる実験によると、MMPOはMT-benchやRewardBenchといった一般的なベンチマークにおいて、ベースラインメソッドよりも一貫してパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-10-04T04:56:11Z) - Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。
本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。
適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T22:35:03Z) - Design Editing for Offline Model-based Optimization [18.701760631151316]
オフラインモデルベース最適化(MBO)は、デザインとスコアのオフラインデータセットのみを使用してブラックボックスの目的関数を最大化することを目的としている。
一般的なアプローチは、既存の設計とその対応するスコアを使用して代理モデルをトレーニングし、その後、代理モデルに関する勾配ベースの更新を通じて新しい設計を生成することである。
この方法は、サロゲートモデルが見当たらない設計の高得点を誤って予測できるという、アウト・オブ・ディストリビューションの問題に悩まされる。
過度に最適化された設計を校正する前に拡散を利用したオフラインモデルベース最適化のための新しい設計編集手法(DEMO)を提案する。
論文 参考訳(メタデータ) (2024-05-22T20:00:19Z) - Modeling Choice via Self-Attention [8.394221523847325]
注意に基づく選択モデルはHalo Multinomial Logit(Halo-MNL)モデルの低最適一般化であることを示す。
また、実データから選択を推定するための最初の現実的な尺度を確立し、既存のモデルの評価を行う。
論文 参考訳(メタデータ) (2023-11-11T11:13:07Z) - Conflict-Averse Gradient Optimization of Ensembles for Effective Offline
Model-Based Optimization [0.0]
我々は、多重勾配降下アルゴリズム(MGDA)と競合逆勾配降下アルゴリズム(CAGrad)の2つの勾配情報を組み合わせたアルゴリズムを評価する。
以上の結果から,MGDAとCAGradは保存性と最適性の間に望ましいバランスを保ち,設計の最適性を損なうことなく,データ駆動型オフラインMBOの堅牢化に寄与することが示唆された。
論文 参考訳(メタデータ) (2023-03-31T10:00:27Z) - Exploring validation metrics for offline model-based optimisation with
diffusion models [50.404829846182764]
モデルベース最適化(MBO)では、マシンラーニングを使用して、(基底真理)オラクルと呼ばれるブラックボックス関数に対する報酬の尺度を最大化する候補を設計することに興味があります。
モデル検証中に基底オラクルに対する近似をトレーニングし、その代わりに使用することができるが、その評価は近似的であり、敵の例に対して脆弱である。
本手法は,外挿量を測定するために提案した評価フレームワークにカプセル化されている。
論文 参考訳(メタデータ) (2022-11-19T16:57:37Z) - Revisiting Design Choices in Model-Based Offline Reinforcement Learning [39.01805509055988]
オフライン強化学習により、エージェントは環境遷移の大規模な収集済みデータセットを利用して制御ポリシーを学習することができる。
本稿では、モデル数や仮想ロールアウト地平線など、他のハイパーパラメータとの相互作用を研究するための新しいプロトコルを比較し、設計する。
論文 参考訳(メタデータ) (2021-10-08T13:51:34Z) - Mismatched No More: Joint Model-Policy Optimization for Model-Based RL [172.37829823752364]
本稿では,モデルとポリシーを共同でトレーニングする単一目的について提案する。
我々の目標は、期待されるリターンのグローバルな低い境界であり、この境界は特定の仮定の下で厳密になる。
結果のアルゴリズム(MnM)は概念的にはGANと似ている。
論文 参考訳(メタデータ) (2021-10-06T13:43:27Z) - Conservative Objective Models for Effective Offline Model-Based
Optimization [78.19085445065845]
計算設計の問題は、合成生物学からコンピュータアーキテクチャまで、様々な場面で発生している。
本研究では,分布外入力に対する接地的目標の実際の値を低くする目的関数のモデルを学習する手法を提案する。
COMは、様々なMBO問題に対して、既存のメソッドの実装と性能の面では単純である。
論文 参考訳(メタデータ) (2021-07-14T17:55:28Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。