論文の概要: A computational theory of evaluation for parameterisable subject
- arxiv url: http://arxiv.org/abs/2503.21138v1
- Date: Thu, 27 Mar 2025 04:00:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:55:00.151879
- Title: A computational theory of evaluation for parameterisable subject
- Title(参考訳): パラメータ可能な対象に対する評価の計算理論
- Authors: Hedong Yan,
- Abstract要約: パラメータ可能な対象に対する評価の計算理論を導入する。
対象者に対する評価基準の一般化評価誤差と一般化因果効果誤差の上限を証明した。
また,測定対象の因果効果の予測と予測による一致性も証明した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Evaluation is critical to advance decision making across domains, yet existing methodologies often struggle to balance theoretical rigor and practical scalability. In order to reduce the cost of experimental evaluation, we introduce a computational theory of evaluation for parameterisable subjects. We prove upper bounds of generalized evaluation error and generalized causal effect error of evaluation metric on subject. We also prove efficiency, and consistency to estimated causal effect of subject on metric by prediction. To optimize evaluation models, we propose a meta-learner to handle heterogeneous evaluation subjects space. Comparing with other computational approaches, our (conditional) evaluation model reduced 24.1%-99.0% evaluation errors across 12 scenes, including individual medicine, scientific simulation, business activities, and quantum trade. The evaluation time is reduced 3-7 order of magnitude comparing with experiments or simulations.
- Abstract(参考訳): 評価はドメイン間で意思決定を進める上で重要であるが、既存の方法論は理論的な厳密さと実践的なスケーラビリティのバランスをとるのに苦労することが多い。
実験的な評価のコストを削減するために,パラメータ可能な被験者に対する評価の計算理論を導入する。
対象者に対する評価基準の一般化評価誤差と一般化因果効果誤差の上限を証明した。
また,測定対象の因果効果の予測と予測による一致性も証明した。
評価モデルの最適化のために,異種評価対象空間を扱うメタラーナを提案する。
他の計算手法と比較して、我々の(条件付き)評価モデルは、個々の医学、科学シミュレーション、ビジネス活動、量子取引を含む12の場面で24.1%-99.0%の評価誤差を減らした。
評価時間は実験やシミュレーションと比較して3~7桁削減される。
関連論文リスト
- Adding Error Bars to Evals: A Statistical Approach to Language Model Evaluations [0.6526824510982799]
評価に関する文献は、実験分析と計画に関する他の科学からの文献をほとんど無視してきた。
本稿は、言語モデル評価からのデータについて、統計学のトレーニングをおこなった研究者について紹介する。
論文 参考訳(メタデータ) (2024-11-01T14:57:16Z) - Towards Reliable Empirical Machine Unlearning Evaluation: A Cryptographic Game Perspective [5.724350004671127]
機械学習は機械学習モデルを更新し、データ保護規則に従って、特定のトレーニングサンプルから情報を削除する。
近年、多くの未学習アルゴリズムが開発されているにもかかわらず、これらのアルゴリズムの信頼性評価は依然としてオープンな研究課題である。
この研究は、非学習アルゴリズムを実証的に評価するための、新しく信頼性の高いアプローチを示し、より効果的な非学習技術を開発するための道を開いた。
論文 参考訳(メタデータ) (2024-04-17T17:20:27Z) - Targeted Machine Learning for Average Causal Effect Estimation Using the
Front-Door Functional [3.0232957374216953]
結果に対する治療の平均因果効果(ACE)を評価することは、しばしば観察研究における要因の相違によって引き起こされる課題を克服することを伴う。
本稿では,目標最小損失推定理論に基づいて,正面基準の新たな推定手法を提案する。
本研究では,早期学業成績が今後の年収に与える影響を明らかにするために,これらの推定装置の適用性を示す。
論文 参考訳(メタデータ) (2023-12-15T22:04:53Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Hyperparameter Tuning and Model Evaluation in Causal Effect Estimation [2.7823528791601686]
本稿では,因果効果推定のためのモデル評価の4つの異なる側面間の相互作用について検討する。
ほとんどの因果推定器は、十分に調整された場合、ほぼ同等の性能であることがわかった。
我々は,現在,最先端の手順で提供されていない最適性能を解き放つために,因果モデル評価に関するさらなる研究を求めている。
論文 参考訳(メタデータ) (2023-03-02T17:03:02Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - Systematic Evaluation of Predictive Fairness [60.0947291284978]
バイアス付きデータセットのトレーニングにおけるバイアスの緩和は、重要なオープンな問題である。
複数のタスクにまたがる様々なデバイアス化手法の性能について検討する。
データ条件が相対モデルの性能に強い影響を与えることがわかった。
論文 参考訳(メタデータ) (2022-10-17T05:40:13Z) - An evaluation framework for comparing causal inference models [3.1372269816123994]
提案手法を用いて、いくつかの最先端因果効果推定モデルを比較した。
このアプローチの背後にある主な動機は、少数のインスタンスやシミュレーションがベンチマークプロセスに与える影響を取り除くことである。
論文 参考訳(メタデータ) (2022-08-31T21:04:20Z) - Doing Great at Estimating CATE? On the Neglected Assumptions in
Benchmark Comparisons of Treatment Effect Estimators [91.3755431537592]
もっとも単純な設定であっても、無知性仮定に基づく推定は誤解を招く可能性があることを示す。
異種処理効果評価のための機械学習ベンチマークデータセットを2つ検討した。
ベンチマークデータセットの固有の特性が、他のものよりもいくつかのアルゴリズムを好んでいる点を強調します。
論文 参考訳(メタデータ) (2021-07-28T13:21:27Z) - Performance metrics for intervention-triggering prediction models do not
reflect an expected reduction in outcomes from using the model [71.9860741092209]
臨床研究者はしばしばリスク予測モデルの中から選択し評価する。
振り返りデータから算出される標準メトリクスは、特定の仮定の下でのみモデルユーティリティに関係します。
予測が時間を通して繰り返し配信される場合、標準メトリクスとユーティリティの関係はさらに複雑になる。
論文 参考訳(メタデータ) (2020-06-02T16:26:49Z) - Generalization Bounds and Representation Learning for Estimation of
Potential Outcomes and Causal Effects [61.03579766573421]
代替薬に対する患者一人の反応など,個人レベルの因果効果の推定について検討した。
我々は,表現の誘導的処理群距離を正規化することにより,境界を最小化する表現学習アルゴリズムを考案した。
これらのアルゴリズムを拡張して、重み付き表現を同時に学習し、治療群距離をさらに削減する。
論文 参考訳(メタデータ) (2020-01-21T10:16:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。