論文の概要: A Set of Rules for Model Validation
- arxiv url: http://arxiv.org/abs/2511.20711v1
- Date: Mon, 24 Nov 2025 22:42:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.778181
- Title: A Set of Rules for Model Validation
- Title(参考訳): モデル検証のためのルールの一組
- Authors: José Camacho,
- Abstract要約: データ駆動モデルの検証は、関心の集団において、新しい、目に見えないデータに一般化するモデルの能力を評価するプロセスである。
本稿では,モデル検証のための一般的なルールセットを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The validation of a data-driven model is the process of assessing the model's ability to generalize to new, unseen data in the population of interest. This paper proposes a set of general rules for model validation. These rules are designed to help practitioners create reliable validation plans and report their results transparently. While no validation scheme is flawless, these rules can help practitioners ensure their strategy is sufficient for practical use, openly discuss any limitations of their validation strategy, and report clear, comparable performance metrics.
- Abstract(参考訳): データ駆動モデルの検証は、関心の集団において、新しい、目に見えないデータに一般化するモデルの能力を評価するプロセスである。
本稿では,モデル検証のための一般的なルールセットを提案する。
これらのルールは、実践者が信頼できる検証計画を作成し、結果を透過的に報告するのに役立つように設計されています。
バリデーションスキームに欠陥はないが、これらのルールは実践者がバリデーション戦略の制限を公然と議論し、明確で同等のパフォーマンスメトリクスを報告するのに役立ちます。
関連論文リスト
- FACT-AUDIT: An Adaptive Multi-Agent Framework for Dynamic Fact-Checking Evaluation of Large Language Models [79.41859481668618]
大規模言語モデル(LLM)はファクトチェック研究を大幅に進歩させた。
既存のファクトチェック評価手法は静的データセットと分類基準に依存している。
本稿では, LLMのファクトチェック機能を適応的かつ動的に評価するエージェント駆動型フレームワークであるFACT-AUDITを紹介する。
論文 参考訳(メタデータ) (2025-02-25T07:44:22Z) - Towards Unsupervised Validation of Anomaly-Detection Models [5.439020425819001]
本研究は,実世界の協調的意思決定機構に触発されて,異常検出モデルの自動検証に新たなパラダイムを提案する。
我々は、モデル選択とモデル評価という、一般的に使われている、教師なしの2つのモデル検証タスクに焦点を当てる。
論文 参考訳(メタデータ) (2024-10-18T16:27:04Z) - Quantifying Local Model Validity using Active Learning [2.8078480738404]
機械学習モデルの現実的な応用は、しばしば法律やポリシーに基づく規制の対象となる。
これらの規則のいくつかはモデルの妥当性を保証することを必要とし、すなわち近似誤差は閾値よりも小さい。
本稿では,モデル誤差を学習し,有効学習を通じて必要なデータ量を減らしながら,局所的妥当性推定値を取得することを提案する。
論文 参考訳(メタデータ) (2024-06-11T17:20:28Z) - Verifiable evaluations of machine learning models using zkSNARKs [40.538081946945596]
本研究は,zkSNARKによるモデル推論を用いたモデル評価の検証手法を提案する。
結果として得られたデータセット上のモデル出力のゼロ知識計算証明は、検証可能な評価証明にパッケージ化することができる。
実世界のモデルのサンプルでこれを初めてデモし、重要な課題と設計ソリューションを強調します。
論文 参考訳(メタデータ) (2024-02-05T02:21:11Z) - Studying How to Efficiently and Effectively Guide Models with Explanations [52.498055901649025]
「モデルガイダンス」とは「正しい理由のために正しい」ことを保証するためにモデルの説明を規則化する考え方である。
PASCAL VOC 2007 および MS COCO 2014 データセット上で, 各種損失関数, 帰属方法, モデル, 誘導深度について詳細な評価を行う。
具体的には、一般的に使用されるセグメンテーションマスクよりもはるかに安価で入手可能なバウンディングボックスアノテーションを用いてモデルをガイドする。
論文 参考訳(メタデータ) (2023-03-21T15:34:50Z) - Exploring validation metrics for offline model-based optimisation with
diffusion models [50.404829846182764]
モデルベース最適化(MBO)では、マシンラーニングを使用して、(基底真理)オラクルと呼ばれるブラックボックス関数に対する報酬の尺度を最大化する候補を設計することに興味があります。
モデル検証中に基底オラクルに対する近似をトレーニングし、その代わりに使用することができるが、その評価は近似的であり、敵の例に対して脆弱である。
本手法は,外挿量を測定するために提案した評価フレームワークにカプセル化されている。
論文 参考訳(メタデータ) (2022-11-19T16:57:37Z) - On the Limits of Evaluating Embodied Agent Model Generalization Using
Validation Sets [101.28658250723804]
本稿では,より広い視野を効果的に活用し,次のステップでナビゲーションや操作を行うかを選択するモジュールによるトランスフォーマーモデルの拡張実験を行う。
提案したモジュールは改良され,実際に,一般的なベンチマークデータセットであるALFREDの未確認検証セット上での最先端のパフォーマンスが向上した。
この結果は、機械学習タスクではより広い現象かもしれないが、主にテストスプリットの評価を制限するベンチマークでのみ顕著である、と我々は考えているので強調する。
論文 参考訳(メタデータ) (2022-05-18T23:52:21Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。