論文の概要: Active Measurement: Efficient Estimation at Scale
- arxiv url: http://arxiv.org/abs/2507.01372v1
- Date: Wed, 02 Jul 2025 05:20:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.056947
- Title: Active Measurement: Efficient Estimation at Scale
- Title(参考訳): アクティブな測定: スケールでの効率的な推定
- Authors: Max Hamilton, Jinlin Lai, Wenlong Zhao, Subhransu Maji, Daniel Sheldon,
- Abstract要約: 科学計測のための人間とループのAIフレームワークであるActive Measurementを紹介した。
AIモデルを使用して個々の単位の測定を予測し、それを人間のラベル付けのためにサンプリングする。
新しい人間のラベルセットによって、AIモデルが改善され、総測定値の偏りのないモンテカルロ推定が洗練される。
- 参考スコア(独自算出の注目度): 25.849595292000107
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: AI has the potential to transform scientific discovery by analyzing vast datasets with little human effort. However, current workflows often do not provide the accuracy or statistical guarantees that are needed. We introduce active measurement, a human-in-the-loop AI framework for scientific measurement. An AI model is used to predict measurements for individual units, which are then sampled for human labeling using importance sampling. With each new set of human labels, the AI model is improved and an unbiased Monte Carlo estimate of the total measurement is refined. Active measurement can provide precise estimates even with an imperfect AI model, and requires little human effort when the AI model is very accurate. We derive novel estimators, weighting schemes, and confidence intervals, and show that active measurement reduces estimation error compared to alternatives in several measurement tasks.
- Abstract(参考訳): AIは、膨大なデータセットをほとんど人間の努力で分析することで、科学的発見を変革する可能性がある。
しかし、現在のワークフローは、必要とされる正確性や統計的保証を提供しないことが多い。
科学計測のための人間とループのAIフレームワークであるActive Measurementを紹介した。
AIモデルは、個々の単位の測定を予測するために使用され、重要サンプリングを使用して人間のラベル付けのためにサンプリングされる。
新しい人間のラベルセットによって、AIモデルが改善され、総測定値の偏りのないモンテカルロ推定が洗練される。
アクティブ測定は、不完全なAIモデルであっても正確な見積もりを提供することができ、AIモデルが非常に正確である場合には、人間の努力をほとんど必要としない。
我々は,新しい推定器,重み付けスキーム,信頼区間を導出し,複数の測定タスクの代替案と比較して,アクティブな測定が推定誤差を低減することを示す。
関連論文リスト
- Position: All Current Generative Fidelity and Diversity Metrics are Flawed [58.815519650465774]
現在のジェネレーティブの忠実度と多様性の指標がすべて欠陥があることを示します。
私たちの目標は、モデルではなく、メトリクスの開発により多くの労力を費やすように研究コミュニティを説得することにあります。
論文 参考訳(メタデータ) (2025-05-28T15:10:33Z) - Re-Visiting Explainable AI Evaluation Metrics to Identify The Most Informative Features [0.0]
関数性またはプロキシベースのアプローチは、人工知能手法の品質を評価するために使用されるアプローチの1つである。
その中では、選択性(Selectivity)やRemOve And Retrain(ROAR)、Permutation Importance(PI)が最も一般的に使用されるメトリクスである。
本稿では,ROAR や IP が実装された場合のモデルの上と下の境界を予測するための予測精度区間 (EAI) を提案する。
論文 参考訳(メタデータ) (2025-01-31T17:18:43Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - What is the Best Automated Metric for Text to Motion Generation? [19.71712698183703]
自然言語の記述から骨格に基づく人間の動きを生成することへの関心が高まっている。
人間の評価は、このタスクの究極の精度測定であり、自動化されたメトリクスは、人間の品質判断とよく相関するべきである。
本稿では,どの指標が人間の評価に最も適しているかを体系的に検討し,さらに適合する新しい指標を提案する。
論文 参考訳(メタデータ) (2023-09-19T01:59:54Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Value function estimation using conditional diffusion models for control [62.27184818047923]
拡散値関数(DVF)と呼ばれる単純なアルゴリズムを提案する。
拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶ。
本稿では,DVFを用いて複数のコントローラの状態を効率よく把握する方法を示す。
論文 参考訳(メタデータ) (2023-06-09T18:40:55Z) - High-dimensional Measurement Error Models for Lipschitz Loss [2.6415509201394283]
リプシッツ損失関数のクラスに対する高次元計測誤差モデルを開発する。
我々の推定器は、適切な実現可能な集合に属するすべての推定器の中で、$L_1$ノルムを最小化するように設計されている。
有限標本統計誤差境界と符号の整合性の観点から理論的な保証を導出する。
論文 参考訳(メタデータ) (2022-10-26T20:06:05Z) - Newer is not always better: Rethinking transferability metrics, their
peculiarities, stability and performance [5.650647159993238]
小さなカスタマイズされたデータセット上で、大規模で事前訓練された画像と言語モデルの微調整が人気を集めている。
共分散推定における統計的問題により,Hスコアの性能が低下することが示唆された。
そこで我々は,そのような設定における相対的精度に対する相関性能を補正し,評価することを推奨する。
論文 参考訳(メタデータ) (2021-10-13T17:24:12Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。