Fugu-MT 論文翻訳(概要): OMNIINPUT: A Model-centric Evaluation Framework through Output Distribution

論文の概要: OMNIINPUT: A Model-centric Evaluation Framework through Output Distribution

arxiv url: http://arxiv.org/abs/2312.03291v1
Date: Wed, 6 Dec 2023 04:53:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-07 16:07:15.586653
Title: OMNIINPUT: A Model-centric Evaluation Framework through Output Distribution
Title（参考訳）: OMNIINPUT:出力分布によるモデル中心評価フレームワーク
Authors: Weitang Liu, Ying Wai Li, Tianle Wang, Yi-Zhuang You, Jingbo Shang
Abstract要約: 我々は,AI/MLモデルの予測品質を,可能なすべての入力に対して評価するモデル中心評価フレームワークOmniInputを提案する。提案手法では, 学習モデルの入力と出力分布を求めるために, 効率的なサンプリング器を用いる。実験により,OmniInputはモデル間のよりきめ細かい比較を可能にした。
参考スコア（独自算出の注目度）: 31.00645110294068
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose a novel model-centric evaluation framework, OmniInput, to evaluate the quality of an AI/ML model's predictions on all possible inputs (including human-unrecognizable ones), which is crucial for AI safety and reliability. Unlike traditional data-centric evaluation based on pre-defined test sets, the test set in OmniInput is self-constructed by the model itself and the model quality is evaluated by investigating its output distribution. We employ an efficient sampler to obtain representative inputs and the output distribution of the trained model, which, after selective annotation, can be used to estimate the model's precision and recall at different output values and a comprehensive precision-recall curve. Our experiments demonstrate that OmniInput enables a more fine-grained comparison between models, especially when their performance is almost the same on pre-defined datasets, leading to new findings and insights for how to train more robust, generalizable models.
Abstract（参考訳）: 我々は,AIの安全性と信頼性に欠かせないすべての入力(人間の認識できない入力を含む)に対して,AI/MLモデルの予測品質を評価するために,新しいモデル中心評価フレームワークOmniInputを提案する。事前定義されたテストセットに基づく従来のデータ中心評価とは異なり、OmniInputのテストセットはモデル自身で自己構築され、その出力分布を調査してモデル品質を評価する。本研究では,モデルの精度を推定し,異なる出力値と包括的精度・リコール曲線を再現するために,訓練モデルの出力分布と代表入力を得る効率的なサンプリング器を用いる。我々の実験は、OmniInputがモデル間のよりきめ細かい比較を可能にし、特に事前定義されたデータセットでパフォーマンスがほぼ同じである場合、より堅牢で一般化可能なモデルのトレーニング方法に関する新たな発見と洞察をもたらすことを実証している。

関連論文リスト

Prediction-Powered Inference with Imputed Covariates and Nonuniform Sampling [20.078602767179355]
機械学習予測におけるエラーを適切に説明できないことは、標準的な統計手順を無効にする。我々は、完全なデータが一様でないサンプル(重み付け、成層化、クラスタ化)である場合に適用されるブートストラップの信頼区間と、任意の機能のサブセットが暗示される設定を紹介する。これらの信頼区間は、機械学習モデルの品質を仮定せずに有効であり、機械学習予測を使用しない手法によって得られる区間よりも広くないことを示す。
論文参考訳（メタデータ） (2025-01-30T18:46:43Z)
How to Select Datapoints for Efficient Human Evaluation of NLG Models? [57.60407340254572]
人間の評価に最も有用なデータポイントを得るためのセレクタ群を開発した。本研究では,自動測定値の分散に基づくセレクタ,モデル出力の多様性,項目応答理論がランダム選択より優れていることを示す。特に,情報源に基づく推定手法を導入し,情報源のテキストに基づいて人体評価に有用な項目を推定する。
論文参考訳（メタデータ） (2025-01-30T10:33:26Z)
Model-diff: A Tool for Comparative Study of Language Models in the Input Space [34.680890752084004]
本稿では,ブルートフォース列挙が実現不可能な大入力空間を考慮した新しいモデル比較分析手法を提案する。実験により、大規模な入力空間におけるLM間の定量的予測の違いが初めて明らかとなり、モデルプラジャリズムのような応用のためのモデル解析が促進される可能性がある。
論文参考訳（メタデータ） (2024-12-13T00:06:25Z)
Sparse Prototype Network for Explainable Pedestrian Behavior Prediction [60.80524827122901]
Sparse Prototype Network (SPN) は,歩行者の将来の行動,軌道,ポーズを同時に予測するための説明可能な手法である。モノセマンティリティとクラスタリングの制約によって規則化されたプロトタイプは、一貫性と人間の理解可能な機能を学ぶ。
論文参考訳（メタデータ） (2024-10-16T03:33:40Z)
missForestPredict -- Missing data imputation for prediction settings [2.8461446020965435]
missForestPredictは、MissForest命令アルゴリズムの高速でユーザフレンドリな適応である。 missForestPredictでは、命令で使用される変数のエラー監視と制御が拡張されている。 missForestPredictは、短い計算時間内で予測設定で競合する結果を提供する。
論文参考訳（メタデータ） (2024-07-02T17:45:46Z)
Knockout: A simple way to handle missing inputs [8.05324050767023]
リッチなインプットを利用するモデルは、推論時にいくつかのインプットが欠落している可能性があるため、広くデプロイすることは困難である。この問題に対する現在の一般的な解決策には、余剰化、計算、複数のモデルのトレーニングがある。完全入力と限界分布を用いて条件分布を効率よく学習する方法を提案する。
論文参考訳（メタデータ） (2024-05-30T19:47:34Z)
Measuring and Improving Attentiveness to Partial Inputs with Counterfactuals [91.59906995214209]
我々は,新しい評価手法であるCAT(Facterfactual Attentiveness Test)を提案する。 CATは、入力の一部を別の例から別の例に置き換えることで、予測を変更する注意深いモデルを期待することで、反事実を使用する。実験データの精度が向上する一方, GPT3 は実演回数の増加により注意力の低下がみられた。
論文参考訳（メタデータ） (2023-11-16T06:27:35Z)
Efficient Shapley Values Estimation by Amortization for Text Classification [66.7725354593271]
我々は,各入力特徴のシェープ値を直接予測し,追加のモデル評価を行なわずに補正モデルを開発する。 2つのテキスト分類データセットの実験結果から、アモルタイズされたモデルでは、Shapley Valuesを最大60倍のスピードアップで正確に見積もっている。
論文参考訳（メタデータ） (2023-05-31T16:19:13Z)
ASPEST: Bridging the Gap Between Active Learning and Selective Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文参考訳（メタデータ） (2023-04-07T23:51:07Z)
PAMI: partition input and aggregate outputs for model interpretation [69.42924964776766]
本研究では、深層学習モデルが局所的な特徴を集約してモデル予測を行うという観察に基づいて、PAMIと呼ばれるシンプルで効果的な可視化フレームワークを提案する。基本的な考え方は、入力の大多数を隠蔽し、元のモデル予測に対する保存された入力部の相対的な寄与として対応するモデル出力を使用することである。複数のタスクに対する大規模な実験により,提案手法は,クラス固有の入力領域をより正確に見つけるために,既存の可視化手法よりも優れていることを確認した。
論文参考訳（メタデータ） (2023-02-07T08:48:34Z)
Are Some Words Worth More than Others? [3.5598388686985354]
簡単な単語予測タスクの枠組み内での2つの本質的な評価手法を提案する。提案手法を用いて,広く使用されている大規模英語モデルの評価を行った。
論文参考訳（メタデータ） (2020-10-12T23:12:11Z)
Detecting unusual input to neural networks [0.48733623015338234]
本研究では,学習パラメータと比較して情報内容を評価することによって,入力の特異性を判定する手法を提案する。この手法は、ある入力を処理するのにネットワークが適しているかどうかを判断し、予期せぬ振る舞いが先延ばしになるような赤い旗を掲げるために使用することができる。
論文参考訳（メタデータ） (2020-06-15T10:48:43Z)
Parameter Space Factorization for Zero-Shot Learning across Tasks and Languages [112.65994041398481]
本稿では,ニューラルパラメータの空間に対するベイズ生成モデルを提案する。タスク言語の組み合わせから得られたデータに基づいて、そのような潜伏変数よりも後部を推測する。我々のモデルは、最先端のゼロショットの言語間転送手法よりも、同等か良い結果が得られる。
論文参考訳（メタデータ） (2020-01-30T16:58:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。