Fugu-MT 論文翻訳(概要): Causal Representation Learning on High-Dimensional Data: Benchmarks, Reproducibility, and Evaluation Metrics

論文の概要: Causal Representation Learning on High-Dimensional Data: Benchmarks, Reproducibility, and Evaluation Metrics

arxiv url: http://arxiv.org/abs/2603.17405v1
Date: Wed, 18 Mar 2026 06:31:01 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-19 18:32:57.54639
Title: Causal Representation Learning on High-Dimensional Data: Benchmarks, Reproducibility, and Evaluation Metrics
Title（参考訳）: 高次元データに基づく因果表現学習:ベンチマーク,再現性,評価指標
Authors: Alireza Sadeghi, Wael AbdAlmageed,
Abstract要約: 因果表現学習モデルは、高次元データを潜在空間に変換することを目的としている。様々な合成および実世界のデータセットが提案されており、それぞれに異なる利点と制限がある。
参考スコア（独自算出の注目度）: 15.583733903108643
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Causal representation learning (CRL) models aim to transform high-dimensional data into a latent space, enabling interventions to generate counterfactual samples or modify existing data based on the causal relationships among latent variables. To facilitate the development and evaluation of these models, a variety of synthetic and real-world datasets have been proposed, each with distinct advantages and limitations. For practical applications, CRL models must perform robustly across multiple evaluation directions, including reconstruction, disentanglement, causal discovery, and counterfactual reasoning, using appropriate metrics for each direction. However, this multi-directional evaluation can complicate model comparison, as a model may excel in some direction while under-performing in others. Another significant challenge in this field is reproducibility: the source code corresponding to published results must be publicly available, and repeated runs should yield performance consistent with the original reports. In this study, we critically analyzed the synthetic and real-world datasets currently employed in the literature, highlighting their limitations and proposing a set of essential characteristics for suitable datasets in CRL model development. We also introduce a single aggregate metric that consolidates performance across all evaluation directions, providing a comprehensive score for each model. Finally, we reviewed existing implementations from the literature and assessed them in terms of reproducibility, identifying gaps and best practices in the field.
Abstract（参考訳）: 因果表現学習(CRL)モデルは,高次元データを潜在空間に変換することを目的としたモデルである。これらのモデルの開発と評価を容易にするために、異なる利点と限界を持つ様々な合成および実世界のデータセットが提案されている。実用的な応用では、CRLモデルは、各方向の適切な指標を用いて、再構成、絡み合い、因果発見、および反実的推論を含む、複数の評価方向にわたって堅牢に実行されなければならない。しかし、この多方向評価はモデルの比較を複雑にすることができる。この分野でもう1つの重要な課題は再現性である: 公開された結果に対応するソースコードは公開されなければならない。本研究では,現在文献に使われている合成データセットと実世界のデータセットを批判的に分析し,その限界を強調し,CRLモデル開発に適したデータセットに不可欠な特徴セットを提案する。また,各モデルに対して総合的なスコアを付与し,すべての評価方向のパフォーマンスを集約する単一の集計指標も導入する。最後に、文献から既存の実装をレビューし、再現性の観点から評価し、この分野におけるギャップとベストプラクティスを特定した。

関連論文リスト

The LLM Data Auditor: A Metric-oriented Survey on Quality and Trustworthiness in Evaluating Synthetic Data [25.926467401802046]
大規模言語モデル(LLM)は、様々なモダリティにまたがるデータを生成する強力なツールとして登場した。本稿では,2次元から合成データを評価するためのフレームワークを提案する。
論文参考訳（メタデータ） (2026-01-25T06:40:25Z)
Nonparametric Data Attribution for Diffusion Models [57.820618036556084]
生成モデルのデータ属性は、個々のトレーニング例がモデル出力に与える影響を定量化する。生成画像とトレーニング画像のパッチレベルの類似性によって影響を測定する非パラメトリック属性法を提案する。
論文参考訳（メタデータ） (2025-10-16T03:37:16Z)
Benchmarking community drug response prediction models: datasets, models, tools, and metrics for cross-dataset generalization analysis [36.689210473887904]
本稿では,ディープラーニング(DL)モデルと機械学習(ML)モデルにおけるデータセット間予測の一般化を評価するためのベンチマークフレームワークを提案する。絶対的なパフォーマンス(データセット間での予測精度など)と相対的なパフォーマンス(例えば、データセット内の結果と比較してパフォーマンス低下)の両方を定量化します。本結果は,厳密な一般化評価の重要性を浮き彫りにして,未知のデータセット上でモデルをテストする場合の大幅な性能低下を明らかにした。
論文参考訳（メタデータ） (2025-03-18T15:40:18Z)
Optimizing Sequential Recommendation Models with Scaling Laws and Approximate Entropy [104.48511402784763]
SRモデルの性能法則は,モデルの性能とデータ品質の関係を理論的に調査し,モデル化することを目的としている。データ品質を評価するために、従来のデータ量メトリクスと比較して、より曖昧なアプローチを示すために、近似エントロピー(ApEn)を提案する。
論文参考訳（メタデータ） (2024-11-30T10:56:30Z)
Testing Generalizability in Causal Inference [3.547529079746247]
機械学習アルゴリズムの一般化性を統計的に評価するための公式な手続きは存在しない。本研究では,高次元因果推論モデルの一般化可能性を統計的に評価するための体系的枠組みを提案する。
論文参考訳（メタデータ） (2024-11-05T11:44:00Z)
Inverse Reinforcement Learning for Text Summarization [52.765898203824975]
本稿では,抽象的な要約モデルを学習するための効果的なパラダイムとして,逆強化学習(IRL)を導入する。異なる領域におけるデータセット間の実験結果は、MLEおよびRLベースラインに対する要約のための提案したIRLモデルの優位性を示す。
論文参考訳（メタデータ） (2022-12-19T23:45:05Z)
Discover, Explanation, Improvement: An Automatic Slice Detection Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文参考訳（メタデータ） (2022-11-08T19:00:00Z)
Synthetic Benchmarks for Scientific Research in Explainable Machine Learning [14.172740234933215]
我々はXAI-Benchをリリースした。XAI-Benchは、合成データセットと、特徴属性アルゴリズムをベンチマークするためのライブラリである。実世界のデータセットとは異なり、合成データセットは条件付き期待値の効率的な計算を可能にする。いくつかの評価指標にまたがって一般的な説明可能性手法をベンチマークし、一般的な説明者にとっての障害モードを特定することで、ライブラリのパワーを実証する。
論文参考訳（メタデータ） (2021-06-23T17:10:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。