論文の概要: Accuracy Can Lie: On the Impact of Surrogate Model in Configuration Tuning
- arxiv url: http://arxiv.org/abs/2501.01876v1
- Date: Fri, 03 Jan 2025 15:57:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-06 15:12:07.938477
- Title: Accuracy Can Lie: On the Impact of Surrogate Model in Configuration Tuning
- Title(参考訳): 正確性:構成調整におけるサロゲートモデルの影響について
- Authors: Pengzhou Chen, Jingzhi Gong, Tao Chen,
- Abstract要約: われわれは13ヶ月の期間にわたって,過去最大規模の実証研究を行っている。
高い精度が実際にチューニング結果の改善に繋がらないケースがかなりの数存在する。
多くのチューナーで選択されたモデルは準最適であり、チューニング品質を著しく向上させるために要求される精度はモデル精度の範囲によって異なる。
- 参考スコア(独自算出の注目度): 2.7382619198694886
- License:
- Abstract: To ease the expensive measurements during configuration tuning, it is natural to build a surrogate model as the replacement of the system, and thereby the configuration performance can be cheaply evaluated. Yet, a stereotype therein is that the higher the model accuracy, the better the tuning result would be. This "accuracy is all" belief drives our research community to build more and more accurate models and criticize a tuner for the inaccuracy of the model used. However, this practice raises some previously unaddressed questions, e.g., Do those somewhat small accuracy improvements reported in existing work really matter much to the tuners? What role does model accuracy play in the impact of tuning quality? To answer those related questions, we conduct one of the largest-scale empirical studies to date-running over the period of 13 months 24*7-that covers 10 models, 17 tuners, and 29 systems from the existing works while under four different commonly used metrics, leading to 13,612 cases of investigation. Surprisingly, our key findings reveal that the accuracy can lie: there are a considerable number of cases where higher accuracy actually leads to no improvement in the tuning outcomes (up to 58% cases under certain setting), or even worse, it can degrade the tuning quality (up to 24% cases under certain setting). We also discover that the chosen models in most proposed tuners are sub-optimal and that the required % of accuracy change to significantly improve tuning quality varies according to the range of model accuracy. Deriving from the fitness landscape analysis, we provide in-depth discussions of the rationale behind, offering several lessons learned as well as insights for future opportunities. Most importantly, this work poses a clear message to the community: we should take one step back from the natural "accuracy is all" belief for model-based configuration tuning.
- Abstract(参考訳): コンフィグレーションチューニングにおける高価な測定を容易にするため、サロゲートモデルをシステムの代替として構築することが自然であり、構成性能を安価に評価することができる。
しかし、ステレオタイプとして、モデル精度が高ければ高いほど、チューニング結果が良くなる。
この「正確は全てである」という信念は、我々の研究コミュニティに、より正確なモデルを構築し、使用するモデルの正確性に対するチューナーを批判します。
しかし、このプラクティスは、例えば、既存の作業で報告された多少の精度改善がチューナーにとって本当に重要なのか?
チューニング品質への影響において、モデル精度はどのような役割を果たすのか?
これらの疑問に答えるために,我々は,既存の10モデル,17チューナー,29システムをカバーする13ヶ月24*7の期間にわたって,これまでで最大規模の実証研究を実施し,4つの一般的な測定基準の下で実施し,13,612件の調査を行った。
意外なことに、我々の重要な発見は、精度が向上すると、チューニング結果(特定の条件下では最大58%)が実際に改善されないケースや、さらに悪いことに、チューニング品質(特定の条件下では最大24%)が低下するケースがかなり多いことです。
また,提案するチューナーにおいて選択されたモデルが準最適であることや,チューニング品質を著しく向上させるために要求される精度が,モデル精度の範囲によって異なることも確認した。
フィットネスランドスケープの分析から,その背景にある根拠について深く議論し,いくつかの教訓と今後の機会への洞察を提供する。
私たちは、モデルベースの構成チューニングに対する自然な"正確性はすべて"の信念から一歩後退すべきです。
関連論文リスト
- Calibrating Large Language Models with Sample Consistency [76.23956851098598]
本稿では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,一貫性の3つの尺度を用いて検討する。
その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック手法よりも優れていることがわかった。
種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-02-21T16:15:20Z) - On the Calibration of Large Language Models and Alignment [63.605099174744865]
信頼性キャリブレーションは、ディープモデルの信頼性を高める重要なツールである。
構築プロセス全体を通して、アライメント言語モデルの校正を体系的に検討する。
我々の研究は、人気のあるLCMが十分に校正されているか、トレーニングプロセスがモデルの校正にどのように影響するかに光を当てています。
論文 参考訳(メタデータ) (2023-11-22T08:57:55Z) - IW-GAE: Importance Weighted Group Accuracy Estimation for Improved Calibration and Model Selection in Unsupervised Domain Adaptation [13.796664304274643]
グループ精度を推定することにより,モデルの校正とモデル選択に対処する新たな視点を提案する。
実験の結果,モデルキャリブレーションタスクでは22%,モデル選択タスクでは14%,最先端性能では22%向上した。
論文 参考訳(メタデータ) (2023-10-16T17:35:29Z) - Calibration in Deep Learning: A Survey of the State-of-the-Art [7.6087138685470945]
ディープニューラルネットワークのキャリブレーションは、安全クリティカルなアプリケーションにおいて、信頼性が高く堅牢なAIシステムを構築する上で重要な役割を果たす。
近年の研究では、予測能力の高い現代のニューラルネットワークは、キャリブレーションが不十分であり、信頼性の低いモデル予測を生成することが示されている。
論文 参考訳(メタデータ) (2023-08-02T15:28:10Z) - Calibration Meets Explanation: A Simple and Effective Approach for Model
Confidence Estimates [21.017890579840145]
本稿では,モデル説明を活用するCMEという手法を提案し,非帰納的属性に対するモデルの信頼性を低下させる。
我々は,2つの人気のある事前学習言語モデルを用いて,6つのデータセットに関する広範な実験を行った。
以上の結果から,モデル説明が後部推定の校正に有効であることが示唆された。
論文 参考訳(メタデータ) (2022-11-06T06:17:21Z) - Better Uncertainty Calibration via Proper Scores for Classification and
Beyond [15.981380319863527]
各校正誤差を適切なスコアに関連付ける適切な校正誤差の枠組みを導入する。
この関係は、モデルのキャリブレーションの改善を確実に定量化するために利用することができる。
論文 参考訳(メタデータ) (2022-03-15T12:46:08Z) - Exploring Strategies for Generalizable Commonsense Reasoning with
Pre-trained Models [62.28551903638434]
モデルの一般化と精度に及ぼす3つの異なる適応法の影響を計測する。
2つのモデルを用いた実験では、微調整はタスクの内容と構造の両方を学習することで最もうまく機能するが、過度に適合し、新しい答えへの限定的な一般化に苦しむ。
我々は、プレフィックスチューニングのような代替適応手法が同等の精度を持つのを観察するが、解を見落とさずに一般化し、対数分割に対してより堅牢である。
論文 参考訳(メタデータ) (2021-09-07T03:13:06Z) - Knowing More About Questions Can Help: Improving Calibration in Question
Answering [19.869498599986006]
質問応答のキャリブレーションについて検討し、各質問に対する解答が正しく予測されるかどうかを推定する。
モデルの信頼性スコアに大きく依存する以前の作業とは異なり、キャリブレータには入力例に関する情報が組み込まれています。
我々のシンプルで効率的なキャリブレータは、多くのタスクやモデルアーキテクチャに容易に適応でき、全ての設定で堅牢なゲインを示す。
論文 参考訳(メタデータ) (2021-06-02T22:22:52Z) - How Can We Know When Language Models Know? On the Calibration of
Language Models for Question Answering [80.82194311274694]
言語モデルがいつ、自信を持って、特定のクエリに対する答えを知っているか、どのように知ることができるか?
我々は,T5,BART,GPT-2の3つの強力な生成モデルを検討した。
次に、そのようなモデルの校正方法を検討し、その信頼性スコアを正しさの確率と相関させる。
論文 参考訳(メタデータ) (2020-12-02T03:53:13Z) - Measuring Massive Multitask Language Understanding [79.6985576698597]
このテストでは、基礎数学、アメリカの歴史、コンピュータ科学、法学など57のタスクをカバーしている。
最も大きなGPT-3モデルでは、ランダムな確率を平均20ポイント近く改善する。
モデルにはパフォーマンスの面もあるが、いつ間違っているかはよく分かっていない。
論文 参考訳(メタデータ) (2020-09-07T17:59:25Z) - Calibration of Pre-trained Transformers [55.57083429195445]
本研究ではBERTとRoBERTaに着目し,自然言語推論,パラフレーズ検出,コモンセンス推論という3つのタスクのキャリブレーションを分析した。
その結果,(1) 事前学習モデルを用いてドメイン内キャリブレーションを行う場合, ベースラインと比較して, ドメイン外キャリブレーション誤差が3.5倍も低いこと,(2) ドメイン内キャリブレーション誤差をさらに低減するために温度スケーリングが有効であること,および, ラベルスムーシングを用いて実証的不確実性を意図的に増大させることにより, ドメイン内キャリブレーション後部キャリブレーションを支援すること,などが示されている。
論文 参考訳(メタデータ) (2020-03-17T18:58:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。