論文の概要: CausalCompass: Evaluating the Robustness of Time-Series Causal Discovery in Misspecified Scenarios
- arxiv url: http://arxiv.org/abs/2602.07915v1
- Date: Sun, 08 Feb 2026 11:27:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.870053
- Title: CausalCompass: Evaluating the Robustness of Time-Series Causal Discovery in Misspecified Scenarios
- Title(参考訳): CausalCompass:不特定シナリオにおける時系列因果発見のロバスト性の評価
- Authors: Huiyang Yi, Xiaojian Shen, Yonggang Wu, Duxin Chen, He Wang, Wenwu Yu,
- Abstract要約: Causalは、時系列因果発見法の堅牢性を評価するために設計されたベンチマークスイートである。
我々は8つの仮定違反シナリオにまたがる代表的なTSCDアルゴリズムの広範なベンチマークを行う。
様々なシナリオで優れた全体的なパフォーマンスを示す方法は、ほとんどディープラーニングベースのアプローチである。
- 参考スコア(独自算出の注目度): 17.11442807888366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Causal discovery from time series is a fundamental task in machine learning. However, its widespread adoption is hindered by a reliance on untestable causal assumptions and by the lack of robustness-oriented evaluation in existing benchmarks. To address these challenges, we propose CausalCompass, a flexible and extensible benchmark suite designed to assess the robustness of time-series causal discovery (TSCD) methods under violations of modeling assumptions. To demonstrate the practical utility of CausalCompass, we conduct extensive benchmarking of representative TSCD algorithms across eight assumption-violation scenarios. Our experimental results indicate that no single method consistently attains optimal performance across all settings. Nevertheless, the methods exhibiting superior overall performance across diverse scenarios are almost invariably deep learning-based approaches. We further provide hyperparameter sensitivity analyses to deepen the understanding of these findings. We also find, somewhat surprisingly, that NTS-NOTEARS relies heavily on standardized preprocessing in practice, performing poorly in the vanilla setting but exhibiting strong performance after standardization. Finally, our work aims to provide a comprehensive and systematic evaluation of TSCD methods under assumption violations, thereby facilitating their broader adoption in real-world applications. The code and datasets are available at https://github.com/huiyang-yi/CausalCompass.
- Abstract(参考訳): 時系列からの因果発見は機械学習の基本的な課題である。
しかし、その普及は、証明不可能な因果仮定への依存と、既存のベンチマークにおける堅牢性指向評価の欠如によって妨げられている。
これらの課題に対処するために、モデリング前提に違反した時系列因果探索法(TSCD)の堅牢性を評価するために設計された、フレキシブルで拡張可能なベンチマークスイートであるCausalCompassを提案する。
CausalCompassの実用性を実証するために,8つの仮定違反シナリオにまたがる代表的なTSCDアルゴリズムの広範なベンチマークを行う。
実験の結果,どの手法も全ての設定で常に最適な性能を発揮できないことがわかった。
それでも、様々なシナリオで優れた全体的なパフォーマンスを示す方法は、ほとんど必ずディープラーニングベースのアプローチである。
さらに,これらの知見の理解を深めるため,ハイパーパラメータ感度解析を行った。
また,NTS-NOTEARSは標準化前処理に大きく依存しており,バニラ設定では性能が良くないが,標準化後の性能は優れていた。
最後に,本研究の目的は,仮説違反によるTSCD手法の包括的かつ体系的な評価を提供することである。
コードとデータセットはhttps://github.com/huiyang-yi/CausalCompass.comで公開されている。
関連論文リスト
- Is Softmax Loss All You Need? A Principled Analysis of Softmax-family Loss [91.61796429377041]
ソフトマックスの損失は、分類とランキングのタスクにおいて最も広く使用されるサロゲートの目標の1つである。
本研究では,異なるサロゲートが分類とランキングの指標との整合性を達成するかどうかを考察し,それらの勾配ダイナミクスを分析して,異なる収束挙動を明らかにする。
本研究は,大規模機械学習アプリケーションにおける損失選択の実践的ガイダンスとして,原則的基礎を確立した。
論文 参考訳(メタデータ) (2026-01-30T09:24:52Z) - Bounding Causal Effects and Counterfactuals [0.0]
この論文は、複数の因果シナリオにまたがる有界アルゴリズムを体系的に比較することで、課題に対処する。
我々は、共通の評価フレームワーク内で最先端のメソッドを実装し、拡張し、統一する。
我々の実証研究は、離散データ生成プロセスと連続データ生成プロセスの両方を含む何千ものランダム化シミュレーションにまたがる。
論文 参考訳(メタデータ) (2025-08-19T08:13:34Z) - On Evaluating Performance of LLM Inference Serving Systems [11.712948114304925]
ベースラインフェアネス、評価設定、メトリックデザインの3つの重要な側面で繰り返し発生するアンチパターンを特定します。
これらのアンチパターンは、その二重相の性質のため、Large Language Model (LLM)推論に固有の問題である。
分析から得られた包括的なチェックリストを提供し、これらのアンチパターンを認識して回避するためのフレームワークを構築します。
論文 参考訳(メタデータ) (2025-07-11T20:58:21Z) - NDCG-Consistent Softmax Approximation with Accelerated Convergence [67.10365329542365]
本稿では,ランキングの指標と直接一致した新たな損失定式化を提案する。
提案したRG損失を高効率な Alternating Least Squares (ALS) 最適化手法と統合する。
実世界のデータセットに対する実証的な評価は、我々のアプローチが同等または上位のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-06-11T06:59:17Z) - A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility [47.56466996118911]
Reasoningは、言語モデル(LM)の次の主要フロンティアとして登場した。
我々は総合的な実証的研究を行い、現在の数学的推論ベンチマークは微妙な実装選択に対して非常に敏感であることがわかった。
本稿では,ベストプラクティスと報告基準を明確に定義した標準化された評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-09T17:58:17Z) - SURE: SUrvey REcipes for building reliable and robust deep networks [12.268921703825258]
本稿では,深層ニューラルネットワークにおける不確実性推定手法を再検討し,信頼性を高めるために一連の手法を統合する。
我々は,不確実性推定の有効性を示す重要なテストベッドである故障予測のベンチマークに対して,SUREを厳格に評価する。
データ破損、ラベルノイズ、長い尾のクラス分布といった現実世界の課題に適用した場合、SUREは顕著な堅牢性を示し、現在の最先端の特殊手法と同等あるいは同等な結果をもたらす。
論文 参考訳(メタデータ) (2024-03-01T13:58:19Z) - On Pitfalls of Test-Time Adaptation [82.8392232222119]
TTA(Test-Time Adaptation)は、分散シフトの下で堅牢性に取り組むための有望なアプローチとして登場した。
TTABは,10の最先端アルゴリズム,多種多様な分散シフト,および2つの評価プロトコルを含むテスト時間適応ベンチマークである。
論文 参考訳(メタデータ) (2023-06-06T09:35:29Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - On the Practicality of Deterministic Epistemic Uncertainty [106.06571981780591]
決定論的不確実性法(DUM)は,分布外データの検出において高い性能を達成する。
DUMが十分に校正されており、現実のアプリケーションにシームレスにスケールできるかどうかは不明だ。
論文 参考訳(メタデータ) (2021-07-01T17:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。