論文の概要: Characterising harmful data sources when constructing multi-fidelity
surrogate models
- arxiv url: http://arxiv.org/abs/2403.08118v1
- Date: Tue, 12 Mar 2024 22:57:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 16:22:41.153674
- Title: Characterising harmful data sources when constructing multi-fidelity
surrogate models
- Title(参考訳): 多相性構築における有害データ源の特性評価
surrogate モデル
- Authors: Nicolau Andr\'es-Thi\'o, Mario Andr\'es Mu\~noz, Kate Smith-Miles
- Abstract要約: 本稿では,サロゲートモデルのトレーニングに利用可能な限られたデータのみを用いて,有害な低忠実度源の特性を示す。
これらのベンチマークスイートの1つをインスタンス空間分析(Instance Space Analysis)と呼ばれるテクニックで分析し、低忠実度ソースをいつ使用するべきかを直感的に視覚化する。
- 参考スコア(独自算出の注目度): 2.3020018305241337
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Surrogate modelling techniques have seen growing attention in recent years
when applied to both modelling and optimisation of industrial design problems.
These techniques are highly relevant when assessing the performance of a
particular design carries a high cost, as the overall cost can be mitigated via
the construction of a model to be queried in lieu of the available high-cost
source. The construction of these models can sometimes employ other sources of
information which are both cheaper and less accurate. The existence of these
sources however poses the question of which sources should be used when
constructing a model. Recent studies have attempted to characterise harmful
data sources to guide practitioners in choosing when to ignore a certain
source. These studies have done so in a synthetic setting, characterising
sources using a large amount of data that is not available in practice. Some of
these studies have also been shown to potentially suffer from bias in the
benchmarks used in the analysis. In this study, we present a characterisation
of harmful low-fidelity sources using only the limited data available to train
a surrogate model. We employ recently developed benchmark filtering techniques
to conduct a bias-free assessment, providing objectively varied benchmark
suites of different sizes for future research. Analysing one of these benchmark
suites with the technique known as Instance Space Analysis, we provide an
intuitive visualisation of when a low-fidelity source should be used and use
this analysis to provide guidelines that can be used in an applied industrial
setting.
- Abstract(参考訳): 近年, 工業設計問題のモデル化と最適化に応用されたサロゲートモデリング技術が注目されている。
これらの技術は、利用可能な高コストソースの代わりにクエリされるモデルの構築を通じて全体のコストを軽減できるため、特定の設計の性能を評価する場合、高いコストがかかる場合に非常に関係がある。
これらのモデルの構築には、時として安価で精度の低い他の情報源を用いることがある。
しかし、これらの情報源の存在は、モデルを構築する際にどの情報源を使うべきかという疑問を提起する。
近年の研究では、ある情報源を無視するタイミングを選択する際の実践者を指導するために有害なデータソースの特徴付けを試みた。
これらの研究は、実際に利用できない大量のデータを用いて、ソースを特徴付ける合成環境で実施されている。
これらの研究のいくつかは、分析で使用されるベンチマークのバイアスに悩まされることも示されている。
本研究では,サロゲートモデルの訓練に利用可能な限られたデータのみを用いて,有害な低忠実度音源の特徴付けを行う。
我々は最近開発されたベンチマークフィルタリング技術を用いてバイアスのない評価を行い、将来の研究のために客観的に異なる大きさのベンチマークスイートを提供する。
これらのベンチマークスイートの1つをインスタンス空間分析と呼ばれる手法を用いて分析し、低忠実度ソースをいつ使用するべきかを直感的に視覚化し、この分析を用いて、応用産業環境で使用可能なガイドラインを提供する。
関連論文リスト
- Source-Free Domain-Invariant Performance Prediction [68.39031800809553]
本研究では,不確実性に基づく推定を主軸としたソースフリー手法を提案する。
オブジェクト認識データセットのベンチマーク実験により、既存のソースベースの手法は、限られたソースサンプルの可用性で不足していることが判明した。
提案手法は,現在の最先端のソースフリーおよびソースベース手法よりも優れており,ドメイン不変性能推定の有効性が確認されている。
論文 参考訳(メタデータ) (2024-08-05T03:18:58Z) - Improving Heterogeneous Model Reuse by Density Estimation [105.97036205113258]
本稿では,異なる参加者の個人データを用いてモデルを学習することを目的とした多人数学習について検討する。
モデルの再利用は、各パーティーのためにローカルモデルがトレーニングされていると仮定して、マルチパーティの学習にとって有望なソリューションである。
論文 参考訳(メタデータ) (2023-05-23T09:46:54Z) - New methods for new data? An overview and illustration of quantitative
inductive methods for HRM research [0.0]
要するに、データは第4次産業革命の本質的な源泉となる。
石油とは異なり、データ生産に関して大きな問題はない。
データ評価の方法論的課題は、実践者と学術研究者の両方に当てはまる。
論文 参考訳(メタデータ) (2023-05-15T09:51:30Z) - Investigating Ensemble Methods for Model Robustness Improvement of Text
Classifiers [66.36045164286854]
既存のバイアス機能を分析し、すべてのケースに最適なモデルが存在しないことを実証します。
適切なバイアスモデルを選択することで、より洗練されたモデル設計でベースラインよりもロバスト性が得られる。
論文 参考訳(メタデータ) (2022-10-28T17:52:10Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - CrossAug: A Contrastive Data Augmentation Method for Debiasing Fact
Verification Models [14.75693099720436]
そこで本研究では,事実検証モデルのデバイアス化のためのデータ拡張手法であるCrossAugを提案する。
既存のサンプルから新たなクレームやエビデンスを生成するために、2段階拡張パイプラインを使用します。
生成されたサンプルは、元のペアとクロスワイズにペアリングされ、対照的なサンプルを形成します。
論文 参考訳(メタデータ) (2021-09-30T13:19:19Z) - Unsupervised Multi-source Domain Adaptation Without Access to Source
Data [58.551861130011886]
Unsupervised Domain Adaptation (UDA)は、ラベル付きソースドメインから知識を転送することで、ラベル付きドメインの予測モデルを学ぶことを目的としている。
本稿では,ソースモデルと適切な重み付けを自動的に組み合わせ,少なくとも最良のソースモデルと同等の性能を発揮する新しい効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-04-05T10:45:12Z) - Learning from others' mistakes: Avoiding dataset biases without modeling
them [111.17078939377313]
最先端自然言語処理(NLP)モデルは、意図したタスクをターゲットとする機能ではなく、データセットのバイアスや表面形状の相関をモデル化することを学ぶことが多い。
これまでの研究は、バイアスに関する知識が利用できる場合に、これらの問題を回避するための効果的な方法を示してきた。
本稿では,これらの問題点を無視する学習モデルについて述べる。
論文 参考訳(メタデータ) (2020-12-02T16:10:54Z) - Adversarial Canonical Correlation Analysis [0.0]
標準相関解析(CCA)は、複数のデータソースやビューから共通情報を抽出する手法である。
最近の研究は、深層学習におけるCCA確率的足場を与えている。
あるいは、逆法はオートエンコーダにおける変分ベイズ法に代わる強力な代替手段として生まれてきた。
論文 参考訳(メタデータ) (2020-05-20T20:46:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。