論文の概要: EBES: Easy Benchmarking for Event Sequences
- arxiv url: http://arxiv.org/abs/2410.03399v1
- Date: Fri, 4 Oct 2024 13:03:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-02 22:39:00.311564
- Title: EBES: Easy Benchmarking for Event Sequences
- Title(参考訳): EBES: イベントシーケンスのベンチマークを容易にする
- Authors: Dmitry Osin, Igor Udovichenko, Viktor Moskvoretskii, Egor Shvetsov, Evgeny Burnaev,
- Abstract要約: イベントシーケンスは、ヘルスケア、ファイナンス、ユーザインタラクションログなど、さまざまな現実世界のドメインにおける一般的なデータ構造である。
時間データモデリング技術の進歩にもかかわらず、イベントシーケンスのパフォーマンスを評価するための標準ベンチマークは存在しない。
標準化された評価シナリオとプロトコルを備えた総合的なベンチマークツールであるEBESを紹介する。
- 参考スコア(独自算出の注目度): 17.277513178760348
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Event sequences, characterized by irregular sampling intervals and a mix of categorical and numerical features, are common data structures in various real-world domains such as healthcare, finance, and user interaction logs. Despite advances in temporal data modeling techniques, there is no standardized benchmarks for evaluating their performance on event sequences. This complicates result comparison across different papers due to varying evaluation protocols, potentially misleading progress in this field. We introduce EBES, a comprehensive benchmarking tool with standardized evaluation scenarios and protocols, focusing on regression and classification problems with sequence-level targets. Our library simplifies benchmarking, dataset addition, and method integration through a unified interface. It includes a novel synthetic dataset and provides preprocessed real-world datasets, including the largest publicly available banking dataset. Our results provide an in-depth analysis of datasets, identifying some as unsuitable for model comparison. We investigate the importance of modeling temporal and sequential components, as well as the robustness and scaling properties of the models. These findings highlight potential directions for future research. Our benchmark aim is to facilitate reproducible research, expediting progress and increasing real-world impacts.
- Abstract(参考訳): イベントシーケンスは、不規則なサンプリング間隔とカテゴリと数値の混合によって特徴づけられ、医療、ファイナンス、ユーザーインタラクションログといった様々な現実世界のドメインで一般的なデータ構造である。
時間データモデリング技術の進歩にもかかわらず、イベントシーケンスのパフォーマンスを評価するための標準ベンチマークは存在しない。
これは、様々な評価プロトコルによって異なる論文間での結果の比較を複雑にし、この分野の進歩を誤解させる可能性がある。
本稿では,標準化された評価シナリオとプロトコルを備えた総合的なベンチマークツールEBESを紹介する。
私たちのライブラリは、統一インターフェースによるベンチマーク、データセットの追加、メソッド統合を簡単にします。
それは、新しい合成データセットを含み、公開可能な最大の銀行用データセットを含む、前処理された現実世界のデータセットを提供する。
この結果から,データセットの詳細な分析を行い,モデル比較に不適なデータセットを同定した。
本稿では、時間的およびシーケンシャルなコンポーネントのモデリングの重要性と、モデルの堅牢性とスケーリング特性について考察する。
これらの知見は今後の研究の方向性を浮き彫りにしている。
本ベンチマークの目的は,再現可能な研究の促進,進歩の迅速化,実環境への影響の増大である。
関連論文リスト
- Harnessing Mixed Features for Imbalance Data Oversampling: Application to Bank Customers Scoring [5.091061468748012]
MGS-GRFは複合機能用に設計されたオーバーサンプリング戦略である。
その結果,MGS-GRFはコヒーレンス(コヒーレンス),すなわち,原データセットにすでに存在する分類的特徴の組み合わせのみを生成できる能力,すなわち連続的特徴と分類的特徴との依存性を維持できる能力の2つの重要な特性を示すことがわかった。
論文 参考訳(メタデータ) (2025-03-26T08:53:40Z) - Zero-shot Meta-learning for Tabular Prediction Tasks with Adversarially Pre-trained Transformer [2.1677183904102257]
本稿では、実世界のデータセットを事前学習することなく、表形式の予測タスクでゼロショットメタ学習を行うことのできるAdversarially Pre-trained Transformer(APT)を提案する。
APTは、異なる合成データセットで意図的にモデルに挑戦する敵対的な合成データエージェントで事前訓練されている。
筆者らのフレームワークは,データセットの特徴をフィルタリングすることなく,小さな分類タスクにおける最先端のパフォーマンスと一致していることを示す。
論文 参考訳(メタデータ) (2025-02-06T23:58:11Z) - EMGBench: Benchmarking Out-of-Distribution Generalization and Adaptation for Electromyography [3.5217105746525803]
本稿では,EMG分類アルゴリズムの分布外性能を評価するため,機械学習を用いた最初の一般化と適応ベンチマークを提案する。
ユーザの意図したジェスチャーをEMG信号で予測することにより、補助技術を制御するウェアラブルソリューションを作成することができる。
論文 参考訳(メタデータ) (2024-10-31T04:24:03Z) - Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - How Hard is this Test Set? NLI Characterization by Exploiting Training Dynamics [49.9329723199239]
本稿では, 実例と非実例を手作業で構築することなく, 挑戦的なテストセットを自動生成する手法を提案する。
一般的なNLIデータセットのテストセットを,トレーニングダイナミクスを利用した3つの難易度に分類する。
我々の評価法がトレーニングセットに適用された場合、トレーニング対象データのごく一部でトレーニングされたモデルは、フルデータセットでトレーニングされたモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-04T13:39:21Z) - Adapting Segment Anything Model for Unseen Object Instance Segmentation [70.60171342436092]
Unseen Object Instance(UOIS)は、非構造環境で動作する自律ロボットにとって不可欠である。
UOISタスクのためのデータ効率のよいソリューションであるUOIS-SAMを提案する。
UOIS-SAMは、(i)HeatmapベースのPrompt Generator(HPG)と(ii)SAMのマスクデコーダに適応する階層識別ネットワーク(HDNet)の2つの重要なコンポーネントを統合する。
論文 参考訳(メタデータ) (2024-09-23T19:05:50Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - Capturing Temporal Components for Time Series Classification [5.70772577110828]
本研究では,逐次データから抽出した統計的コヒーレントな成分に基づいて学習したテキスト合成表現学習手法を提案する。
マルチスケールな変更空間に基づいて、シーケンシャルデータを類似の統計特性を持つチャンクに分割する教師なしの手法を提案する。
シーケンスベースのエンコーダモデルをマルチタスク設定でトレーニングし、時系列分類のための時間成分から合成表現を学習する。
論文 参考訳(メタデータ) (2024-06-20T16:15:21Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - MADS: Modulated Auto-Decoding SIREN for time series imputation [9.673093148930874]
我々は,暗黙のニューラル表現に基づく時系列計算のための新しい自動デコードフレームワークMADSを提案する。
実世界の2つのデータセット上で本モデルを評価し,時系列計算における最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-07-03T09:08:47Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - High-Level Synthetic Data Generation with Data Set Archetypes [4.13592995550836]
クラスタ分析は、異なるアルゴリズムの評価と比較に有効なベンチマークに依存している。
データセットのアーキタイプに基づく合成データ生成を提案する。
評価シナリオの言葉による記述からベンチマークを純粋に設定することが可能である。
論文 参考訳(メタデータ) (2023-03-24T23:45:27Z) - Detection and Evaluation of Clusters within Sequential Data [58.720142291102135]
Block Markov Chainsのクラスタリングアルゴリズムは理論的最適性を保証する。
特に、私たちのシーケンシャルデータは、ヒトのDNA、テキスト、動物運動データ、金融市場から派生しています。
ブロックマルコフ連鎖モデルの仮定は、実際に探索データ解析において有意義な洞察を得られることが判明した。
論文 参考訳(メタデータ) (2022-10-04T15:22:39Z) - Robust Event Classification Using Imperfect Real-world PMU Data [58.26737360525643]
本研究では,不完全な実世界のファサー計測単位(PMU)データを用いて,ロバストな事象分類について検討する。
我々は、堅牢なイベント分類器を訓練するための新しい機械学習フレームワークを開発する。
論文 参考訳(メタデータ) (2021-10-19T17:41:43Z) - Synthetic Benchmarks for Scientific Research in Explainable Machine
Learning [14.172740234933215]
我々はXAI-Benchをリリースした。XAI-Benchは、合成データセットと、特徴属性アルゴリズムをベンチマークするためのライブラリである。
実世界のデータセットとは異なり、合成データセットは条件付き期待値の効率的な計算を可能にする。
いくつかの評価指標にまたがって一般的な説明可能性手法をベンチマークし、一般的な説明者にとっての障害モードを特定することで、ライブラリのパワーを実証する。
論文 参考訳(メタデータ) (2021-06-23T17:10:21Z) - Benchmarking the Benchmark -- Analysis of Synthetic NIDS Datasets [4.125187280299247]
我々は,より最近で関連する3つのNIDSデータセットにおいて,良性トラフィックの統計的性質を解析した。
以上の結果から,合成データセットと実世界の2つのデータセットの統計的特徴の相違が明らかとなった。
論文 参考訳(メタデータ) (2021-04-19T03:17:37Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - BREEDS: Benchmarks for Subpopulation Shift [98.90314444545204]
本研究では,人口変動に対するモデルのロバスト性を評価する手法を開発した。
既存のデータセットの基盤となるクラス構造を利用して、トレーニングとテストの分散を構成するデータサブポピュレーションを制御する。
この手法をImageNetデータセットに適用し、様々な粒度のサブポピュレーションシフトベンチマークスイートを作成する。
論文 参考訳(メタデータ) (2020-08-11T17:04:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。