Fugu-MT 論文翻訳(概要): A computational theory of evaluation for parameterisable subject

論文の概要: A computational theory of evaluation for parameterisable subject

arxiv url: http://arxiv.org/abs/2503.21138v1
Date: Thu, 27 Mar 2025 04:00:49 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-28 18:49:11.383691
Title: A computational theory of evaluation for parameterisable subject
Title（参考訳）: パラメータ可能な対象に対する評価の計算理論
Authors: Hedong Yan,
Abstract要約: パラメータ可能な対象に対する評価の計算理論を導入する。対象者に対する評価基準の一般化評価誤差と一般化因果効果誤差の上限を証明した。また,測定対象の因果効果の予測と予測による一致性も証明した。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Evaluation is critical to advance decision making across domains, yet existing methodologies often struggle to balance theoretical rigor and practical scalability. In order to reduce the cost of experimental evaluation, we introduce a computational theory of evaluation for parameterisable subjects. We prove upper bounds of generalized evaluation error and generalized causal effect error of evaluation metric on subject. We also prove efficiency, and consistency to estimated causal effect of subject on metric by prediction. To optimize evaluation models, we propose a meta-learner to handle heterogeneous evaluation subjects space. Comparing with other computational approaches, our (conditional) evaluation model reduced 24.1%-99.0% evaluation errors across 12 scenes, including individual medicine, scientific simulation, business activities, and quantum trade. The evaluation time is reduced 3-7 order of magnitude comparing with experiments or simulations.
Abstract（参考訳）: 評価はドメイン間で意思決定を進める上で重要であるが、既存の方法論は理論的な厳密さと実践的なスケーラビリティのバランスをとるのに苦労することが多い。実験的な評価のコストを削減するために,パラメータ可能な被験者に対する評価の計算理論を導入する。対象者に対する評価基準の一般化評価誤差と一般化因果効果誤差の上限を証明した。また,測定対象の因果効果の予測と予測による一致性も証明した。評価モデルの最適化のために,異種評価対象空間を扱うメタラーナを提案する。他の計算手法と比較して、我々の(条件付き)評価モデルは、個々の医学、科学シミュレーション、ビジネス活動、量子取引を含む12の場面で24.1%-99.0%の評価誤差を減らした。評価時間は実験やシミュレーションと比較して3～7桁削減される。

関連論文リスト

Practical Improvements of A/B Testing with Off-Policy Estimation [51.25970890274447]
従来の手法よりも分散度を低くする非バイアスのオフ・ポリティクス推定器のファミリーを導入する。提案手法の有効性と実用性を理論的に検証した。
論文参考訳（メタデータ） (2025-06-12T13:11:01Z)
HypoEval: Hypothesis-Guided Evaluation for Natural Language Generation [25.193026443079987]
hypoEvalは、大規模言語モデル(LLM)のための仮説誘導評価フレームワークである人間の評価は30点に過ぎず,HypoEvalはヒトのランク(スピアマンの相関)とヒトのスコア(ピアソンの相関)の両方に対応して最先端のパフォーマンスを達成する。我々は、HypoEvalの堅牢性を評価するための系統的研究を行い、信頼性と解釈可能な自動評価フレームワークとしての有効性を強調した。
論文参考訳（メタデータ） (2025-04-09T18:00:01Z)
Evaluation Agent: Efficient and Promptable Evaluation Framework for Visual Generative Models [51.067146460271466]
視覚生成モデルの評価には時間を要するし、計算コストもかかる。本研究では,効率的,動的,多ラウンドな評価に人間的な戦略を用いる評価エージェントフレームワークを提案する。 1)効率性、2)多様なユーザニーズに合わせた迅速な評価、3)1つの数値スコア以上の説明可能性、4)さまざまなモデルやツールのスケーラビリティ。
論文参考訳（メタデータ） (2024-12-10T18:52:39Z)
Adding Error Bars to Evals: A Statistical Approach to Language Model Evaluations [0.6526824510982799]
評価に関する文献は、実験分析と計画に関する他の科学からの文献をほとんど無視してきた。本稿は、言語モデル評価からのデータについて、統計学のトレーニングをおこなった研究者について紹介する。
論文参考訳（メタデータ） (2024-11-01T14:57:16Z)
Poor-Supervised Evaluation for SuperLLM via Mutual Consistency [20.138831477848615]
正確なラベルを使わずに評価を行うためのPoEMフレームワークを提案する。まず、モデルと特定の参照モデルとの整合性によって、モデルの能力が等価に評価できることを証明します。現実の条件の不整合を緩和するために,人間(利用可能な場合)と参照モデルとして評価中のモデルを扱うアルゴリズムを導入する。
論文参考訳（メタデータ） (2024-08-25T06:49:03Z)
Area under the ROC Curve has the Most Consistent Evaluation for Binary Classification [3.1850615666574806]
本研究は, 有病率の異なるデータ間でのモデル評価において, 測定値の整合性について検討する。有病率の影響を受けない評価指標は、個々のモデルの一貫性のある評価と、モデルの集合の一貫性のあるランキングを提供する。
論文参考訳（メタデータ） (2024-08-19T17:52:38Z)
Towards Reliable Empirical Machine Unlearning Evaluation: A Cryptographic Game Perspective [5.724350004671127]
機械学習は機械学習モデルを更新し、データ保護規則に従って、特定のトレーニングサンプルから情報を削除する。近年、多くの未学習アルゴリズムが開発されているにもかかわらず、これらのアルゴリズムの信頼性評価は依然としてオープンな研究課題である。この研究は、非学習アルゴリズムを実証的に評価するための、新しく信頼性の高いアプローチを示し、より効果的な非学習技術を開発するための道を開いた。
論文参考訳（メタデータ） (2024-04-17T17:20:27Z)
Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文参考訳（メタデータ） (2023-11-03T14:59:54Z)
High Precision Causal Model Evaluation with Conditional Randomization [10.23470075454725]
因果誤差を推定するための新しい低分散推定器(ペア推定器)を提案する。モデルと真の実験効果の両方に同じIPW推定器を適用することにより、IPWによる分散を効果的にキャンセルし、より小さな分散を実現する。提案手法は,IPW推定器自体の複雑な変更を伴わずに,条件付きランダム化設定における因果推論モデルを評価するための,単純かつ強力な解を提供する。
論文参考訳（メタデータ） (2023-11-03T13:22:27Z)
Learning Evaluation Models from Large Language Models for Sequence Generation [61.8421748792555]
本稿では,大規模言語モデルを用いた3段階評価モデルトレーニング手法を提案する。 SummEval ベンチマークによる実験結果から,CSEM は人間ラベルデータなしで評価モデルを効果的に訓練できることが示された。
論文参考訳（メタデータ） (2023-08-08T16:41:16Z)
From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
Hyperparameter Tuning and Model Evaluation in Causal Effect Estimation [2.7823528791601686]
本稿では,因果効果推定のためのモデル評価の4つの異なる側面間の相互作用について検討する。ほとんどの因果推定器は、十分に調整された場合、ほぼ同等の性能であることがわかった。我々は,現在,最先端の手順で提供されていない最適性能を解き放つために,因果モデル評価に関するさらなる研究を求めている。
論文参考訳（メタデータ） (2023-03-02T17:03:02Z)
Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文参考訳（メタデータ） (2022-12-15T17:26:05Z)
Neural Causal Models for Counterfactual Identification and Estimation [62.30444687707919]
本稿では,ニューラルモデルによる反事実文の評価について検討する。まず、神経因果モデル(NCM)が十分に表現可能であることを示す。第2に,反事実分布の同時同定と推定を行うアルゴリズムを開発する。
論文参考訳（メタデータ） (2022-09-30T18:29:09Z)
Meta Pattern Concern Score: A Novel Evaluation Measure with Human Values for Multi-classifiers [4.983066629141241]
本稿ではメタパターン関連スコアという新しい評価尺度を提案する。我々は,2種類の共通指標,すなわち混乱行列に基づく評価尺度と損失値の利点と欠点から学習する。また,学習率を動的に調整することで,モデルトレーニングの洗練にも有効である。
論文参考訳（メタデータ） (2022-09-14T04:28:15Z)
An evaluation framework for comparing causal inference models [3.1372269816123994]
提案手法を用いて、いくつかの最先端因果効果推定モデルを比較した。このアプローチの背後にある主な動機は、少数のインスタンスやシミュレーションがベンチマークプロセスに与える影響を取り除くことである。
論文参考訳（メタデータ） (2022-08-31T21:04:20Z)
Doing Great at Estimating CATE? On the Neglected Assumptions in Benchmark Comparisons of Treatment Effect Estimators [91.3755431537592]
もっとも単純な設定であっても、無知性仮定に基づく推定は誤解を招く可能性があることを示す。異種処理効果評価のための機械学習ベンチマークデータセットを2つ検討した。ベンチマークデータセットの固有の特性が、他のものよりもいくつかのアルゴリズムを好んでいる点を強調します。
論文参考訳（メタデータ） (2021-07-28T13:21:27Z)
Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。 ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文参考訳（メタデータ） (2021-02-20T03:29:20Z)
Causal Inference of General Treatment Effects using Neural Networks with A Diverging Number of Confounders [12.105996764226227]
非確立状態下では、共同設立者に対する調整は、非パラメトリックな共同設立者に対して結果や治療に関連する迷惑関数を見積もる必要がある。本稿では,ニューラルネットワーク(ANN)を用いた一般的な治療効果の効率的な評価のための一般化された最適化手法について考察する。
論文参考訳（メタデータ） (2020-09-15T13:07:24Z)
Performance metrics for intervention-triggering prediction models do not reflect an expected reduction in outcomes from using the model [71.9860741092209]
臨床研究者はしばしばリスク予測モデルの中から選択し評価する。振り返りデータから算出される標準メトリクスは、特定の仮定の下でのみモデルユーティリティに関係します。予測が時間を通して繰り返し配信される場合、標準メトリクスとユーティリティの関係はさらに複雑になる。
論文参考訳（メタデータ） (2020-06-02T16:26:49Z)
Generalization Bounds and Representation Learning for Estimation of Potential Outcomes and Causal Effects [61.03579766573421]
代替薬に対する患者一人の反応など,個人レベルの因果効果の推定について検討した。我々は,表現の誘導的処理群距離を正規化することにより,境界を最小化する表現学習アルゴリズムを考案した。これらのアルゴリズムを拡張して、重み付き表現を同時に学習し、治療群距離をさらに削減する。
論文参考訳（メタデータ） (2020-01-21T10:16:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。