論文の概要: RamanBench: A Large-Scale Benchmark for Machine Learning on Raman Spectroscopy
- arxiv url: http://arxiv.org/abs/2605.02003v1
- Date: Sun, 03 May 2026 18:12:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.038853
- Title: RamanBench: A Large-Scale Benchmark for Machine Learning on Raman Spectroscopy
- Title(参考訳): RamanBench: Raman Spectroscopyによる機械学習のための大規模ベンチマーク
- Authors: Mario Koddenbrock, Christoph Lange, Robin Legner, Martin Jäger, Martin Kögler, Mariano N. Cruz Bournazou, Peter Neubauer, Felix Biessmann, Erik Rodner,
- Abstract要約: RamanBenchは、Raman分光における機械学習のための、最初の大規模で完全に再現可能なベンチマークである。
4つのドメインにまたがる74のデータセットを統一し、325,668のスペクトルと、分類と回帰タスクを対象とする。
古典的手法(PSSなど)、Raman特化手法(RamanNetなど)、Tabular Foundation Model(TFM)、TabPFN(TabPFNなど)、時系列アプローチなどを含む28のモデルをベンチマークする。
- 参考スコア(独自算出の注目度): 1.5981687661754302
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine Learning (ML) has transformed many scientific fields, yet key applications still lack standardized benchmarks. Raman spectroscopy, a widely used technique for non-invasive molecular analysis, is one such field where progress is limited by fragmented datasets, inconsistent evaluation, and models that fail to capture the structure of spectral data. We introduce RamanBench, the first large-scale, fully reproducible benchmark for ML on Raman spectroscopy, consisting of streamlined data access, evaluation protocols and code, as well as a live leaderboard. It unifies 74 datasets (including 16 first released with this benchmark) across four domains, comprising 325,668 spectra and spanning classification and regression tasks under diverse experimental conditions. We benchmark 28 models under a standardized protocol, including classical methods (e.g., PLS), Raman-specific (e.g., RamanNet), Tabular Foundation Model (TFM) (e.g., TabPFN), and time-series approaches (e.g., ROCKET). TFM consistently outperform domain-specific and gradient boosting baselines, while time-series models remain competitive. However, no method generalizes across datasets, revealing a fundamental gap. Therefore, we invite the community to contribute new approaches to our living benchmark, with the potential to accelerate advances in critical applications such as medical diagnostics, biological research, and materials science.
- Abstract(参考訳): 機械学習(ML)は多くの科学分野に変化をもたらしたが、主要なアプリケーションは依然として標準ベンチマークを欠いている。
非侵襲的な分子解析の手法であるラマン分光法は、断片化されたデータセット、一貫性のない評価、スペクトルデータの構造を捉えるのに失敗するモデルによって進行が制限される分野の1つである。
我々はRaman Benchを紹介した。これはRamanの分光法におけるMLのための最初の大規模で完全に再現可能なベンチマークであり、データアクセスの合理化、評価プロトコルとコード、ライブのリーダーボードで構成されている。
74のデータセット(このベンチマークで最初にリリースされた16を含む)を4つのドメインにまとめる。
我々は、古典的手法(例えば、PLS)、Raman-specific(eg、RamanNet)、Tabular Foundation Model(TFM)、TabPFN(eg、ROCKET)、時系列アプローチ(eg、ROCKET)を含む28のモデルをベンチマークする。
TFMはドメイン特化と勾配向上のベースラインを一貫して上回り、時系列モデルは競争力を維持している。
しかしながら、データセットをまたいで一般化するメソッドはなく、根本的なギャップが明らかになる。
そこで我々は, 医療診断, 生物学的研究, 材料科学などの重要な応用の進展を加速する可能性があり, 生活ベンチマークに新たなアプローチを貢献するようコミュニティに求めている。
関連論文リスト
- Benchmarking Deep Learning Models for Raman Spectroscopy Across Open-Source Datasets [0.0]
本研究では、3つ以上のRaman固有のディープラーニング分類器を複数のオープンソースのRamanデータセットで比較した最初の体系的ベンチマークの1つを示す。
分類精度とマクロ平均F1スコアを報告し,Ramanスペクトルに基づく分類のための深層学習モデルの公平かつ再現可能な比較結果を提供する。
論文 参考訳(メタデータ) (2026-01-22T16:54:53Z) - Breaking the Modality Barrier: Generative Modeling for Accurate Molecule Retrieval from Mass Spectra [60.08608779794957]
本稿では,ジェネレーティブ言語モデルに基づく検索フレームワークであるGLMRを提案する。
検索前の段階では、比較学習に基づくモデルでは、上位候補分子を入力質量スペクトルの文脈的先行として識別する。
生成検索段階において、これらの候補分子は入力質量スペクトルと統合され、精製された分子構造を生成するための生成モデルが導かれる。
論文 参考訳(メタデータ) (2025-11-09T07:25:53Z) - An MLCommons Scientific Benchmarks Ontology [2.665757190742151]
本稿では,統一的,コミュニティ主導の取り組みを通じて開発された科学ベンチマークのオントロジーを紹介する。
この取り組みは、異なるベンチマークとフレームワークの大規模なセットを単一の分類に集約する。
新しいベンチマークはMLCommons Science Working Groupが調整したオープンな提出を通じて追加することができる。
論文 参考訳(メタデータ) (2025-11-06T17:07:18Z) - A Standardized Benchmark for Machine-Learned Molecular Dynamics using Weighted Ensemble Sampling [32.505127447635864]
本稿では,タンパク質MD法を体系的に評価するモジュール型ベンチマークフレームワークを提案する。
このフレームワークには、任意のシミュレーションエンジンをサポートするフレキシブルで軽量なプロパゲータインターフェースが含まれている。
10から224個の残基から、様々な折りたたみ複合体にまたがる9種類のタンパク質のデータセットをコントリビュートする。
論文 参考訳(メタデータ) (2025-10-20T06:02:36Z) - A Robust Support Vector Machine Approach for Raman COVID-19 Data Classification [0.7864304771129751]
本稿では,ラマン分光法から得られた新型コロナウイルスの分類における,SVM(Support Vector Machine)のための新しいロバストな定式化の性能について検討する。
我々は、各観測の周囲の有界な不確実性集合を用いて、決定論的定式化の頑健な相反するモデルを導出する。
本手法の有効性は,イタリアの病院が提供した実世界のCOVID-19データセットで検証されている。
論文 参考訳(メタデータ) (2025-01-29T14:02:45Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - RamanNet: A generalized neural network architecture for Raman Spectrum
Analysis [4.670045009583903]
ラマン分光法は分子の振動プロファイルを提供し、異なる種類の物質を識別するために用いられる。
近年のRaman Spectraデータ量の増加にもかかわらず、Raman Spectra分析のための一般化された機械学習手法の開発には大きな努力が払われていない。
既存の手法を検証、実験、評価し、現在の逐次モデルも従来の機械学習モデルも、Ramanスペクトルの分析に十分満足できないと推測する。
論文 参考訳(メタデータ) (2022-01-20T23:15:25Z) - Benchmarking Graph Neural Networks [75.42159546060509]
グラフニューラルネットワーク(GNN)は、グラフ上のデータから分析および学習するための標準ツールキットとなっている。
成功している分野が主流で信頼性を持つようになるためには、進捗を定量化するためにベンチマークを開発する必要がある。
GitHubリポジトリは1,800のスターと339のフォークに到達し、提案されているオープンソースフレームワークの有用性を実証している。
論文 参考訳(メタデータ) (2020-03-02T15:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。