論文の概要: Unveiling Statistical Significance of Online Regression over Multiple Datasets
- arxiv url: http://arxiv.org/abs/2512.12787v1
- Date: Sun, 14 Dec 2025 18:04:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.437531
- Title: Unveiling Statistical Significance of Online Regression over Multiple Datasets
- Title(参考訳): 複数データセット上でのオンライン回帰の統計的意義
- Authors: Mohammad Abu-Shaira, Weishi Shi,
- Abstract要約: 本稿では、最先端のオンライン回帰モデルについて検討し、いくつかの適切な試験を経験的に評価する。
徹底的な評価のために、実データと合成データセットの両方を5倍のクロスバリデーションとシード平均化で利用することで、さまざまなデータサブセットの総合的な評価が保証される。
- 参考スコア(独自算出の注目度): 7.146027549101716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite extensive focus on techniques for evaluating the performance of two learning algorithms on a single dataset, the critical challenge of developing statistical tests to compare multiple algorithms across various datasets has been largely overlooked in most machine learning research. Additionally, in the realm of Online Learning, ensuring statistical significance is essential to validate continuous learning processes, particularly for achieving rapid convergence and effectively managing concept drifts in a timely manner. Robust statistical methods are needed to assess the significance of performance differences as data evolves over time. This article examines the state-of-the-art online regression models and empirically evaluates several suitable tests. To compare multiple online regression models across various datasets, we employed the Friedman test along with corresponding post-hoc tests. For thorough evaluations, utilizing both real and synthetic datasets with 5-fold cross-validation and seed averaging ensures comprehensive assessment across various data subsets. Our tests generally confirmed the performance of competitive baselines as consistent with their individual reports. However, some statistical test results also indicate that there is still room for improvement in certain aspects of state-of-the-art methods.
- Abstract(参考訳): 単一のデータセット上で2つの学習アルゴリズムのパフォーマンスを評価する技術に重点を置いているにもかかわらず、さまざまなデータセットで複数のアルゴリズムを比較する統計的テストを開発するという重要な課題は、ほとんどの機械学習研究で見過ごされている。
さらに、オンライン学習の領域では、継続的な学習プロセス、特に迅速な収束を実現し、タイムリーな方法で概念ドリフトを効果的に管理するために、統計的重要性の確保が不可欠である。
データが時間とともに進化するにつれて、パフォーマンスの違いの重要性を評価するために、ロバストな統計手法が必要である。
本稿では、最先端のオンライン回帰モデルについて検討し、いくつかの適切な試験を経験的に評価する。
複数のオンライン回帰モデルをさまざまなデータセットで比較するために、Friedmanテストとそれに対応するポストホックテストを採用しました。
徹底的な評価のために、実データと合成データセットの両方を5倍のクロスバリデーションとシード平均化で利用することで、さまざまなデータサブセットの総合的な評価が保証される。
私たちのテストは一般的に、個々のレポートと一致して、競争ベースラインのパフォーマンスを確認しました。
しかし、いくつかの統計的試験結果からは、最先端の手法には改善の余地がまだ残っていることが示唆されている。
関連論文リスト
- Ranking-Based At-Risk Student Prediction Using Federated Learning and Differential Features [4.21051987964486]
本研究では,フェデレーション学習と差分特徴を組み合わせ,プライバシー問題に対処する手法を提案する。
提案手法を評価するため,12科12科136名のデータを用いて,リスクの高い学生の予測モデルを構築した。
訓練されたモデルは早期予測にも適用可能で、学期前半のリスクの高い学生を検知する上で高い性能を達成できた。
論文 参考訳(メタデータ) (2025-05-14T11:12:30Z) - Measuring Data Diversity for Instruction Tuning: A Systematic Analysis and A Reliable Metric [48.81957145701228]
サンプルレベルの「ノーベルティ」に基づく新しい多様性指標であるNovellSumを提案する。
シミュレーションデータと実世界のデータの両方の実験により、NovellSumは正確に多様性の変動を捉え、命令調整されたモデルの性能と0.97の相関を達成している。
論文 参考訳(メタデータ) (2025-02-24T14:20:22Z) - The Mirrored Influence Hypothesis: Efficient Data Influence Estimation by Harnessing Forward Passes [30.30769701138665]
我々は、訓練データとテストデータの間の相互影響を浮き彫りにして、ミラーレッド影響仮説を導入し、探求する。
具体的には、テスト予測に対するトレーニングデータの影響を評価することは、等価だが逆問題として再定義することができることを示唆している。
トレーニングポイント毎に前方パスとペアを組むことで,特定のテストサンプルの勾配を計算し,トレーニングデータの影響を推定する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-14T03:43:05Z) - Self-aware and Cross-sample Prototypical Learning for Semi-supervised
Medical Image Segmentation [10.18427897663732]
整合性学習は半教師付き医療画像セグメンテーションにおいて重要な役割を担っている。
これにより、注釈なしデータの豊富さを生かしながら、限られた注釈付きデータの有効利用が可能になる。
一貫性学習における予測の多様性を高めるために,自己認識型・クロスサンプル型学習法(SCP-Net)を提案する。
論文 参考訳(メタデータ) (2023-05-25T16:22:04Z) - A Comprehensive Survey on Test-Time Adaptation under Distribution Shifts [117.72709110877939]
テスト時間適応(TTA)は、事前訓練されたモデルをテスト中に、予測する前にラベルのないデータに適応する可能性がある。
TTAはテスト時間領域適応、テスト時間バッチ適応、オンラインテスト時間適応といったテストデータの形態に基づいて、いくつかの異なるグループに分類される。
論文 参考訳(メタデータ) (2023-03-27T16:32:21Z) - Revisiting Long-tailed Image Classification: Survey and Benchmarks with
New Evaluation Metrics [88.39382177059747]
メトリクスのコーパスは、長い尾の分布で学習するアルゴリズムの正確性、堅牢性、およびバウンダリを測定するために設計されている。
ベンチマークに基づいて,CIFAR10およびCIFAR100データセット上での既存手法の性能を再評価する。
論文 参考訳(メタデータ) (2023-02-03T02:40:54Z) - A classification performance evaluation measure considering data
separability [6.751026374812737]
本稿では,データ符号化率に基づく新たな分離可能性尺度を提案する。
実データセットから構築したマルチタスクシナリオにおいて,提案手法と認識精度の正の相関性を示す。
論文 参考訳(メタデータ) (2022-11-10T09:18:26Z) - Systematic Evaluation of Predictive Fairness [60.0947291284978]
バイアス付きデータセットのトレーニングにおけるバイアスの緩和は、重要なオープンな問題である。
複数のタスクにまたがる様々なデバイアス化手法の性能について検討する。
データ条件が相対モデルの性能に強い影響を与えることがわかった。
論文 参考訳(メタデータ) (2022-10-17T05:40:13Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。