論文の概要: Rethinking Symbolic Regression Datasets and Benchmarks for Scientific
Discovery
- arxiv url: http://arxiv.org/abs/2206.10540v1
- Date: Tue, 21 Jun 2022 17:15:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 15:24:55.843167
- Title: Rethinking Symbolic Regression Datasets and Benchmarks for Scientific
Discovery
- Title(参考訳): 記号回帰データセットの再考と科学的発見のためのベンチマーク
- Authors: Yoshitomo Matsubara, Naoya Chiba, Ryo Igarashi, Tatsunori Taniai,
Yoshitaka Ushiku
- Abstract要約: 本稿では,シンボリック回帰のデータセットと評価基準を再検討する。
我々は120個のデータセットを再生し、科学的な発見のための象徴的回帰のパフォーマンスについて議論する。
以上の結果から,我々はより現実的なパフォーマンス評価を行い,科学的発見のための新しい機械学習ベースのアプローチを開拓した。
- 参考スコア(独自算出の注目度): 20.635235839741508
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper revisits datasets and evaluation criteria for Symbolic Regression,
a task of expressing given data using mathematical equations, specifically
focused on its potential for scientific discovery. Focused on a set of formulas
used in the existing datasets based on Feynman Lectures on Physics, we recreate
120 datasets to discuss the performance of symbolic regression for scientific
discovery (SRSD). For each of the 120 SRSD datasets, we carefully review the
properties of the formula and its variables to design reasonably realistic
sampling range of values so that our new SRSD datasets can be used for
evaluating the potential of SRSD such as whether or not an SR method con
(re)discover physical laws from such datasets. As an evaluation metric, we also
propose to use normalized edit distances between a predicted equation and the
ground-truth equation trees. While existing metrics are either binary or errors
between the target values and an SR model's predicted values for a given input,
normalized edit distances evaluate a sort of similarity between the
ground-truth and predicted equation trees. We have conducted experiments on our
new SRSD datasets using five state-of-the-art SR methods in SRBench and a
simple baseline based on a recent Transformer architecture. The results show
that we provide a more realistic performance evaluation and open up a new
machine learning-based approach for scientific discovery. Our datasets and code
repository are publicly available.
- Abstract(参考訳): 本稿では,数式を用いて与えられたデータを表現するための課題である記号回帰のデータセットと評価基準を再検討する。
feynman lectures on physicsに基づく既存のデータセットで使われる式セットに着目し,120のデータセットを再現し,srsd(symbolive regression for scientific discovery)の性能について検討した。
120個のSRSDデータセットのそれぞれに対して、この公式とその変数の特性を慎重にレビューし、合理的に現実的なサンプリング範囲を設計し、新しいSRSDデータセットを使用して、これらのデータセットからSRSD法が物理法則を(再)発見するか否か等、SRSDの可能性を評価する。
評価指標として,予測方程式と接地トラス方程式木の間の正規化編集距離を用いることを提案する。
既存のメトリクスは、与えられた入力に対する目標値とsrモデルの予測値の間の2値または誤差であるが、正規化された編集距離は、接地木と予測式木との類似性を評価する。
SRBenchにおける5つの最先端SR手法と,最近のTransformerアーキテクチャに基づくシンプルなベースラインを用いて,新しいSRSDデータセットの実験を行った。
その結果、我々はより現実的なパフォーマンス評価を提供し、科学的発見のための新しい機械学習ベースのアプローチを開拓した。
データセットとコードリポジトリは公開されています。
関連論文リスト
- Multi-View Symbolic Regression [0.301138495170623]
複数のデータセットを同時に考慮したMvSR(Multi-View Symbolic Regression)を提案する。
MvSRは評価された式を各独立したデータセットに適合させ、パラメトリック関数のファミリーを返す。
我々は、既知の表現から生成されたデータと、天文学、化学、経済から得られた実世界のデータを用いて、MvSRの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-06T15:53:49Z) - A Transformer Model for Symbolic Regression towards Scientific Discovery [11.827358526480323]
記号回帰(SR)は、数値データセットを最もよく記述する数学的表現を探索する。
本稿では, シンボリック回帰に着目した新しいトランスフォーマーモデルを提案する。
我々は、正規化ツリーベース編集距離を用いて、最先端の結果を出力するSRSDデータセットにベストモデルを適用した。
論文 参考訳(メタデータ) (2023-12-07T06:27:48Z) - Soft Random Sampling: A Theoretical and Empirical Analysis [59.719035355483875]
ソフトランダムサンプリング(SRS)は、大量のデータを扱う際に、効率的なディープニューラルネットワークに対して単純だが効果的なアプローチである。
それは、各エポックに設定された各データセットから、ランダムに置換された均一な速度を選択する。
実世界の産業規模で重要な競争力を持つ、強力で競争力のある戦略であることが示されている。
論文 参考訳(メタデータ) (2023-11-21T17:03:21Z) - ARES: An Automated Evaluation Framework for Retrieval-Augmented
Generation Systems [50.82251875013377]
ARESは軽量LM判定器を微調整し、個々のRAG成分の品質を評価する。
予測駆動推論(PPI)のための人間アノテーション付きデータポイントの小さなセットの利用
ARESは、数百の人間のアノテーションを使用して、RAGシステムを正確に評価する。
論文 参考訳(メタデータ) (2023-11-16T00:39:39Z) - TRIAGE: Characterizing and auditing training data for improved
regression [80.11415390605215]
TRIAGEは回帰タスクに適した新しいデータキャラクタリゼーションフレームワークで、広範囲の回帰器と互換性がある。
TRIAGEは、共形予測分布を利用して、モデルに依存しないスコアリング方法、TRIAGEスコアを提供する。
TRIAGEの特徴は一貫性があり、複数の回帰設定においてデータの彫刻/フィルタリングによるパフォーマンス向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-10-29T10:31:59Z) - SuperBench: A Super-Resolution Benchmark Dataset for Scientific Machine
Learning [42.76583514565341]
我々は,高解像度データセットを特徴とする最初のベンチマークデータセットであるSuperBenchを紹介する。
空間ロバストネスSRデータ中心および物理保存視点の検証に焦点をあてる。
我々は,SR法が科学的データにおいて,微細な特徴を捕捉し,基本的な物理的特性と制約を保存する上での限界を同定する。
論文 参考訳(メタデータ) (2023-06-24T22:39:33Z) - Active Learning in Symbolic Regression with Physical Constraints [0.0]
進化的記号回帰(SR)は記号方程式をデータに適合させ、簡潔な解釈可能なモデルを与える。
本研究では,身体的制約のあるアクティブな学習環境において,どのデータを収集すべきかをSRを用いて提案する。
論文 参考訳(メタデータ) (2023-05-17T17:07:25Z) - GSR: A Generalized Symbolic Regression Approach [13.606672419862047]
本論文では, 一般化記号回帰について述べる。
GSR法は、よく知られたシンボリック回帰ベンチマーク問題セットにおいて、最先端のいくつかの手法よりも優れていることを示す。
既存のベンチマークと比較して、より困難な新しいSRベンチマークセットであるSymSetを導入することで、GSRの強みを強調します。
論文 参考訳(メタデータ) (2022-05-31T07:20:17Z) - Learning to be a Statistician: Learned Estimator for Number of Distinct
Values [54.629042119819744]
列内の異なる値の数(NDV)を推定することは、データベースシステムにおける多くのタスクに有用である。
本研究では、ランダム(オンライン/オフライン)サンプルから正確なNDV推定を導出する方法に焦点を当てる。
教師付き学習フレームワークにおいて,NDV推定タスクを定式化し,モデルを推定対象として学習することを提案する。
論文 参考訳(メタデータ) (2022-02-06T15:42:04Z) - Self-Supervised Neural Architecture Search for Imbalanced Datasets [129.3987858787811]
ニューラルアーキテクチャサーチ(NAS)は、アノテートラベル付きよく計算されたデータセットでトレーニングされた場合、最先端の結果を提供する。
a) アーキテクチャを決定するためにラベルを必要とせず、(b) データセットが不均衡であると仮定する自己管理シナリオに焦点を当てたNASベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-17T14:56:36Z) - Dynamic Refinement Network for Oriented and Densely Packed Object
Detection [75.29088991850958]
本稿では,機能選択モジュール (FSM) と動的改善ヘッド (DRH) の2つの新しいコンポーネントからなる動的精細化ネットワークを提案する。
我々のFSMは、ニューロンがターゲットオブジェクトの形状や向きに応じて受容野を調整できるのに対して、DRHはオブジェクト認識の方法で動的に予測を洗練させる。
我々は、DOTA、HRSC2016、SKU110K、および我々のSKU110K-Rデータセットを含むいくつかの公開ベンチマークで定量的評価を行う。
論文 参考訳(メタデータ) (2020-05-20T11:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。