論文の概要: A Computational Theory for Efficient Model Evaluation with Causal Guarantees
- arxiv url: http://arxiv.org/abs/2503.21138v3
- Date: Sat, 19 Apr 2025 04:06:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-22 11:59:53.498829
- Title: A Computational Theory for Efficient Model Evaluation with Causal Guarantees
- Title(参考訳): 因果保証者による効率的なモデル評価のための計算理論
- Authors: Hedong Yan,
- Abstract要約: 与えられた評価モデルの一般化誤差と一般化因果効果誤差の上限を証明した。
また,提案手法の効率性や,推定因果効果の予測値との整合性についても検証した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In order to reduce the cost of experimental evaluation for models, we introduce a computational theory of evaluation for prediction and decision models: build evaluation model to accelerate the evaluation procedures. We prove upper bounds of generalized error and generalized causal effect error of given evaluation models. We also prove efficiency, and consistency to estimated causal effect from deployed subject to evaluation metric by prediction. To learn evaluation models, we propose a meta-learner to handle heterogeneous evaluation subjects space problem. Comparing with existed evaluation approaches, our (conditional) evaluation model reduced 24.1\%-99.0\% evaluation errors across 12 scenes, including individual medicine, scientific simulation, social experiment, business activity, and quantum trade. The evaluation time is reduced 3-7 order of magnitude comparing with experiments or simulations.
- Abstract(参考訳): モデルに対する実験評価のコストを削減するため,予測モデルと決定モデルに対する評価の計算理論を導入する。
与えられた評価モデルの一般化誤差と一般化因果効果誤差の上限を証明した。
また,提案手法の効率性や,推定因果効果の予測値との整合性についても検証した。
評価モデルを学習するために,異種評価対象空間問題を扱うメタラーナを提案する。
既存の評価手法と比較して、我々の(条件付き)評価モデルは、個々の医学、科学シミュレーション、社会実験、ビジネス活動、量子取引を含む12の場面で24.1\%-99.0\%の評価誤差を減らした。
評価時間は実験やシミュレーションと比較して3~7桁削減される。
関連論文リスト
- Evaluation Agent: Efficient and Promptable Evaluation Framework for Visual Generative Models [51.067146460271466]
視覚生成モデルの評価には時間を要するし、計算コストもかかる。
本研究では,効率的,動的,多ラウンドな評価に人間的な戦略を用いる評価エージェントフレームワークを提案する。
1)効率性、2)多様なユーザニーズに合わせた迅速な評価、3)1つの数値スコア以上の説明可能性、4)さまざまなモデルやツールのスケーラビリティ。
論文 参考訳(メタデータ) (2024-12-10T18:52:39Z) - Adding Error Bars to Evals: A Statistical Approach to Language Model Evaluations [0.6526824510982799]
評価に関する文献は、実験分析と計画に関する他の科学からの文献をほとんど無視してきた。
本稿は、言語モデル評価からのデータについて、統計学のトレーニングをおこなった研究者について紹介する。
論文 参考訳(メタデータ) (2024-11-01T14:57:16Z) - Poor-Supervised Evaluation for SuperLLM via Mutual Consistency [20.138831477848615]
正確なラベルを使わずに評価を行うためのPoEMフレームワークを提案する。
まず、モデルと特定の参照モデルとの整合性によって、モデルの能力が等価に評価できることを証明します。
現実の条件の不整合を緩和するために,人間(利用可能な場合)と参照モデルとして評価中のモデルを扱うアルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-08-25T06:49:03Z) - Area under the ROC Curve has the Most Consistent Evaluation for Binary Classification [3.1850615666574806]
本研究は, 有病率の異なるデータ間でのモデル評価において, 測定値の整合性について検討する。
有病率の影響を受けない評価指標は、個々のモデルの一貫性のある評価と、モデルの集合の一貫性のあるランキングを提供する。
論文 参考訳(メタデータ) (2024-08-19T17:52:38Z) - Towards Reliable Empirical Machine Unlearning Evaluation: A Cryptographic Game Perspective [5.724350004671127]
機械学習は機械学習モデルを更新し、データ保護規則に従って、特定のトレーニングサンプルから情報を削除する。
近年、多くの未学習アルゴリズムが開発されているにもかかわらず、これらのアルゴリズムの信頼性評価は依然としてオープンな研究課題である。
この研究は、非学習アルゴリズムを実証的に評価するための、新しく信頼性の高いアプローチを示し、より効果的な非学習技術を開発するための道を開いた。
論文 参考訳(メタデータ) (2024-04-17T17:20:27Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - High Precision Causal Model Evaluation with Conditional Randomization [10.23470075454725]
因果誤差を推定するための新しい低分散推定器(ペア推定器)を提案する。
モデルと真の実験効果の両方に同じIPW推定器を適用することにより、IPWによる分散を効果的にキャンセルし、より小さな分散を実現する。
提案手法は,IPW推定器自体の複雑な変更を伴わずに,条件付きランダム化設定における因果推論モデルを評価するための,単純かつ強力な解を提供する。
論文 参考訳(メタデータ) (2023-11-03T13:22:27Z) - Learning Evaluation Models from Large Language Models for Sequence Generation [61.8421748792555]
本稿では,大規模言語モデルを用いた3段階評価モデルトレーニング手法を提案する。
SummEval ベンチマークによる実験結果から,CSEM は人間ラベルデータなしで評価モデルを効果的に訓練できることが示された。
論文 参考訳(メタデータ) (2023-08-08T16:41:16Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Hyperparameter Tuning and Model Evaluation in Causal Effect Estimation [2.7823528791601686]
本稿では,因果効果推定のためのモデル評価の4つの異なる側面間の相互作用について検討する。
ほとんどの因果推定器は、十分に調整された場合、ほぼ同等の性能であることがわかった。
我々は,現在,最先端の手順で提供されていない最適性能を解き放つために,因果モデル評価に関するさらなる研究を求めている。
論文 参考訳(メタデータ) (2023-03-02T17:03:02Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - An evaluation framework for comparing causal inference models [3.1372269816123994]
提案手法を用いて、いくつかの最先端因果効果推定モデルを比較した。
このアプローチの背後にある主な動機は、少数のインスタンスやシミュレーションがベンチマークプロセスに与える影響を取り除くことである。
論文 参考訳(メタデータ) (2022-08-31T21:04:20Z) - Doing Great at Estimating CATE? On the Neglected Assumptions in
Benchmark Comparisons of Treatment Effect Estimators [91.3755431537592]
もっとも単純な設定であっても、無知性仮定に基づく推定は誤解を招く可能性があることを示す。
異種処理効果評価のための機械学習ベンチマークデータセットを2つ検討した。
ベンチマークデータセットの固有の特性が、他のものよりもいくつかのアルゴリズムを好んでいる点を強調します。
論文 参考訳(メタデータ) (2021-07-28T13:21:27Z) - Causal Inference of General Treatment Effects using Neural Networks with
A Diverging Number of Confounders [12.105996764226227]
非確立状態下では、共同設立者に対する調整は、非パラメトリックな共同設立者に対して結果や治療に関連する迷惑関数を見積もる必要がある。
本稿では,ニューラルネットワーク(ANN)を用いた一般的な治療効果の効率的な評価のための一般化された最適化手法について考察する。
論文 参考訳(メタデータ) (2020-09-15T13:07:24Z) - Performance metrics for intervention-triggering prediction models do not
reflect an expected reduction in outcomes from using the model [71.9860741092209]
臨床研究者はしばしばリスク予測モデルの中から選択し評価する。
振り返りデータから算出される標準メトリクスは、特定の仮定の下でのみモデルユーティリティに関係します。
予測が時間を通して繰り返し配信される場合、標準メトリクスとユーティリティの関係はさらに複雑になる。
論文 参考訳(メタデータ) (2020-06-02T16:26:49Z) - Generalization Bounds and Representation Learning for Estimation of
Potential Outcomes and Causal Effects [61.03579766573421]
代替薬に対する患者一人の反応など,個人レベルの因果効果の推定について検討した。
我々は,表現の誘導的処理群距離を正規化することにより,境界を最小化する表現学習アルゴリズムを考案した。
これらのアルゴリズムを拡張して、重み付き表現を同時に学習し、治療群距離をさらに削減する。
論文 参考訳(メタデータ) (2020-01-21T10:16:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。