論文の概要: Rethinking and Recomputing the Value of ML Models
- arxiv url: http://arxiv.org/abs/2209.15157v1
- Date: Fri, 30 Sep 2022 01:02:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-10-03 14:31:03.489167
- Title: Rethinking and Recomputing the Value of ML Models
- Title(参考訳): MLモデルの価値の再考と再計算
- Authors: Burcu Sayin, Fabio Casati, Andrea Passerini, Jie Yang, Xinyue Chen
- Abstract要約: 私たちがMLモデルをトレーニングし評価してきた方法は、それらが組織や社会的文脈に適用されているという事実をほとんど忘れている、と私たちは主張する。
この観点から、私たちはMLモデルの評価、選択、デプロイの方法を根本的に変えています。
- 参考スコア(独自算出の注目度): 28.80821411530123
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we argue that the way we have been training and evaluating ML
models has largely forgotten the fact that they are applied in an organization
or societal context as they provide value to people. We show that with this
perspective we fundamentally change how we evaluate, select and deploy ML
models - and to some extent even what it means to learn. Specifically, we
stress that the notion of value plays a central role in learning and
evaluating, and different models may require different learning practices and
provide different values based on the application context they are applied. We
also show that this concretely impacts how we select and embed models into
human workflows based on experimental datasets. Nothing of what is presented
here is hard: to a large extent is a series of fairly trivial observations with
massive practical implications.
- Abstract(参考訳): 本稿では、私たちがMLモデルをトレーニングし評価してきた方法は、組織や社会的文脈に応用され、人々に価値を提供するという事実をほとんど忘れてしまったことを論じる。
この観点では、mlモデルの評価、選択、デプロイの仕方を根本的に変え、学習することの意味さえある程度変えていることを示します。
具体的には、価値の概念が学習と評価において中心的な役割を果たすことを強調し、異なるモデルは異なる学習プラクティスを必要とし、適用されるアプリケーションコンテキストに基づいて異なる価値を提供する可能性がある。
また、これは実験的なデータセットに基づいてモデルを人間のワークフローに選択し、組み込む方法に具体的に影響を及ぼすことを示す。
ここで提示されるものはどれも難しいものではなく、かなりの範囲において、大規模な実践的な意味を持つ、非常に自明な観察のシリーズである。
関連論文リスト
- Are We Truly Forgetting? A Critical Re-examination of Machine Unlearning Evaluation Protocols [14.961054239793356]
我々は,大規模シナリオ下での未学習モデルの表現に基づく評価を用いた新しい包括的評価を行う。
我々の分析によると、現在の最先端の未学習アプローチは、未学習モデルの表現品質を完全に低下させるか、または完全に低下させる。
本稿では,下流のタスククラスと意味的類似性を示す,移動学習の観点からの新たなアンラーニング評価手法を提案する。
論文 参考訳(メタデータ) (2025-03-10T07:11:34Z) - Controlled Model Debiasing through Minimal and Interpretable Updates [6.089774484591287]
2つのデシラタに依存する新しい教師付き学習課題である制御モデルデバイアスの概念を導入する。
モデルに依存しず,テスト時の感度特性を必要としないアルゴリズムCOMMODを提案する。
提案手法は,概念に基づくアーキテクチャと逆学習を組み合わせることで,最先端のデバイアス手法に匹敵する性能を達成できることを示す。
論文 参考訳(メタデータ) (2025-02-28T18:03:55Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。
本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。
異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文 参考訳(メタデータ) (2024-07-28T06:10:47Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - OLMES: A Standard for Language Model Evaluations [64.85905119836818]
再現可能な言語モデル評価のための実用的でオープンな標準であるOLMESを提案する。
我々は,コミュニティが採用する評価実践において,様々な要因を特定し,検討する。
OLMESは、複数の質問の非自然な「閉じた」定式化を必要とする小さなベースモデル間の有意義な比較をサポートする。
論文 参考訳(メタデータ) (2024-06-12T17:37:09Z) - When is an Embedding Model More Promising than Another? [33.540506562970776]
埋め込みは機械学習において中心的な役割を担い、あらゆるオブジェクトを数値表現に投影し、様々な下流タスクを実行するために利用することができる。
埋め込みモデルの評価は一般にドメイン固有の経験的アプローチに依存する。
本稿では, 組込み器の評価を統一的に行い, 充足性と情報性の概念を考察する。
論文 参考訳(メタデータ) (2024-06-11T18:13:46Z) - A Dynamic Model of Performative Human-ML Collaboration: Theory and Empirical Evidence [2.498836880652668]
本稿では,人間-機械学習協調システムにおける機械学習モデルの展開を考えるための新しい枠組みを提案する。
このフレームワークでは、MLレコメンデーションの導入によって、人間の意思決定のデータ生成プロセスが変化します。
多くのレベルのMLパフォーマンスにおいて、人間はML予測を改善することができる。
論文 参考訳(メタデータ) (2024-05-22T15:38:30Z) - What is it for a Machine Learning Model to Have a Capability? [0.0]
モデル評価の初期段階の科学に有用な機械学習モデルの能力について考察する。
私たちの中核的な提案は、モデル能力の条件付き分析(CAMA)であり、粗雑に言うと、機械学習モデルは、もし"トリド"された場合、それが確実にXを行うのに成功するときに、Xの能力を持つ。
論文 参考訳(メタデータ) (2024-05-14T23:03:52Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Non-Invasive Fairness in Learning through the Lens of Data Drift [88.37640805363317]
データや学習アルゴリズムを変更することなく、機械学習モデルの公平性を向上する方法を示す。
異なる集団間の傾向のばらつきと、学習モデルと少数民族間の連続的な傾向は、データドリフトと類似している。
このドリフトを解決するための2つの戦略(モデル分割とリウィーディング)を探索し、基礎となるデータに対するモデル全体の適合性を改善することを目的としている。
論文 参考訳(メタデータ) (2023-03-30T17:30:42Z) - Exploring validation metrics for offline model-based optimisation with
diffusion models [50.404829846182764]
モデルベース最適化(MBO)では、マシンラーニングを使用して、(基底真理)オラクルと呼ばれるブラックボックス関数に対する報酬の尺度を最大化する候補を設計することに興味があります。
モデル検証中に基底オラクルに対する近似をトレーニングし、その代わりに使用することができるが、その評価は近似的であり、敵の例に対して脆弱である。
本手法は,外挿量を測定するために提案した評価フレームワークにカプセル化されている。
論文 参考訳(メタデータ) (2022-11-19T16:57:37Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Synthetic Model Combination: An Instance-wise Approach to Unsupervised
Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。
専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文 参考訳(メタデータ) (2022-10-11T10:20:31Z) - Evaluation Gaps in Machine Learning Practice [13.963766987258161]
実際に、機械学習モデルの評価は、しばしば、非文脈化された予測行動の狭い範囲に焦点を当てる。
評価対象の理想化された幅と実際の評価対象の狭い焦点との間の評価ギャップについて検討した。
これらの特性を研究することで、規範的な影響を持つコミットメントの範囲について、機械学習分野の暗黙の仮定を実証する。
論文 参考訳(メタデータ) (2022-05-11T04:00:44Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - On the Value of ML Models [7.301530330533432]
機械学習(ML)モデルの確立とベンチマークを行う場合、研究コミュニティは、実践的なアプリケーションでモデルがもたらす価値をよりよく把握する評価指標を優先すべきである、と私たちは主張する。
特定のユースケースのクラス -- 選択的な分類 -- に対して、我々はそれができるほどシンプルであるだけでなく、結果がインポートできることを示し、良い'MLモデルで何を探すべきかを洞察する。
論文 参考訳(メタデータ) (2021-12-13T16:32:08Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z) - Insights into Performance Fitness and Error Metrics for Machine Learning [1.827510863075184]
機械学習(ML)は、高いレベルの認知を達成し、人間のような分析を行うための訓練機械の分野である。
本稿では、回帰アルゴリズムや分類アルゴリズムにおいて、最もよく使われている性能適合度と誤差の測定値について検討する。
論文 参考訳(メタデータ) (2020-05-17T22:59:04Z) - Fairness by Explicability and Adversarial SHAP Learning [0.0]
本稿では,外部監査役の役割とモデル説明可能性を強調するフェアネスの新たな定義を提案する。
逆代理モデルのSHAP値から構築した正規化を用いてモデルバイアスを緩和するフレームワークを開発する。
合成データセット、UCIアダルト(国勢調査)データセット、実世界の信用評価データセットである。
論文 参考訳(メタデータ) (2020-03-11T14:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。