Fugu-MT 論文翻訳(概要): Our Evaluation Metric Needs an Update to Encourage Generalization

論文の概要: Our Evaluation Metric Needs an Update to Encourage Generalization

arxiv url: http://arxiv.org/abs/2007.06898v1
Date: Tue, 14 Jul 2020 08:15:19 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-10 13:23:47.274822
Title: Our Evaluation Metric Needs an Update to Encourage Generalization
Title（参考訳）: 評価基準は包括的一般化の更新を必要とします
Authors: Swaroop Mishra, Anjana Arunkumar, Chris Bryan and Chitta Baral
Abstract要約: 一般的なベンチマークで人的パフォーマンスを上回るモデルでは、Out of Distributionデータへの露出によるパフォーマンスの大幅な低下が示される。本稿では,評価中の一般化を促す簡易で斬新な評価指標WOOD Scoreを提案する。
参考スコア（独自算出の注目度）: 24.6240575061124
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Models that surpass human performance on several popular benchmarks display significant degradation in performance on exposure to Out of Distribution (OOD) data. Recent research has shown that models overfit to spurious biases and `hack' datasets, in lieu of learning generalizable features like humans. In order to stop the inflation in model performance -- and thus overestimation in AI systems' capabilities -- we propose a simple and novel evaluation metric, WOOD Score, that encourages generalization during evaluation.
Abstract（参考訳）: いくつかの人気のあるベンチマークで人的パフォーマンスを上回るモデルでは、out of Distribution(OOD)データに曝露した場合のパフォーマンスが著しく低下する。最近の研究では、モデルが人間のような一般化可能な特徴を学習する代わりに、刺激的なバイアスや「ハック」データセットに過度に適合していることが示されている。モデル性能のインフレーション(つまりAIシステムの能力の過大評価)を抑えるため、我々は、評価中の一般化を促進する単純で斬新な評価指標であるWOODスコアを提案する。

関連論文リスト

Benchmarking community drug response prediction models: datasets, models, tools, and metrics for cross-dataset generalization analysis [36.689210473887904]
本稿では,ディープラーニング(DL)モデルと機械学習(ML)モデルにおけるデータセット間予測の一般化を評価するためのベンチマークフレームワークを提案する。絶対的なパフォーマンス(データセット間での予測精度など)と相対的なパフォーマンス(例えば、データセット内の結果と比較してパフォーマンス低下)の両方を定量化します。本結果は,厳密な一般化評価の重要性を浮き彫りにして,未知のデータセット上でモデルをテストする場合の大幅な性能低下を明らかにした。
論文参考訳（メタデータ） (2025-03-18T15:40:18Z)
Rethinking Relation Extraction: Beyond Shortcuts to Generalization with a Debiased Benchmark [53.876493664396506]
ベンチマークは、機械学習アルゴリズムのパフォーマンスの評価、比較の促進、優れたソリューションの特定に不可欠である。本稿では,関係抽出タスクにおけるエンティティバイアスの問題に対処する。本稿では,エンティティの代替によって,エンティティ参照と関係型との擬似相関を破る不偏関係抽出ベンチマークDREBを提案する。 DREBの新たなベースラインを確立するために,データレベルとモデルトレーニングレベルを組み合わせたデバイアス手法であるMixDebiasを導入する。
論文参考訳（メタデータ） (2025-01-02T17:01:06Z)
Self-Taught Evaluators [77.92610887220594]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文参考訳（メタデータ） (2024-08-05T17:57:02Z)
Model Reprogramming Outperforms Fine-tuning on Out-of-distribution Data in Text-Image Encoders [56.47577824219207]
本稿では,侵入的微調整技術に関連する隠れたコストを明らかにする。ファインチューニングのための新しいモデル再プログラミング手法を導入し、それをリプログラマと呼ぶ。我々の経験的証拠は、Re Programmerは侵入力が少なく、より優れた下流モデルが得られることを示している。
論文参考訳（メタデータ） (2024-03-16T04:19:48Z)
QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。 QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文参考訳（メタデータ） (2023-11-06T00:21:44Z)
Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文参考訳（メタデータ） (2023-11-03T14:59:54Z)
Learning Evaluation Models from Large Language Models for Sequence Generation [61.8421748792555]
本稿では,大規模言語モデルを用いた3段階評価モデルトレーニング手法を提案する。 SummEval ベンチマークによる実験結果から,CSEM は人間ラベルデータなしで評価モデルを効果的に訓練できることが示された。
論文参考訳（メタデータ） (2023-08-08T16:41:16Z)
From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。 GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文参考訳（メタデータ） (2023-04-19T14:58:27Z)
Towards Realistic Out-of-Distribution Detection: A Novel Evaluation Framework for Improving Generalization in OOD Detection [14.541761912174799]
本稿では,OOD(Out-of-Distribution)検出のための新しい評価フレームワークを提案する。より現実的な設定で機械学習モデルのパフォーマンスを評価することを目的としている。
論文参考訳（メタデータ） (2022-11-20T07:30:15Z)
Rethinking Self-Supervision Objectives for Generalizable Coherence Modeling [8.329870357145927]
機械生成テキストのコヒーレンス評価は、検討すべきコヒーレンスモデルの主要な応用の1つである。タスク全体にわたってうまく一般化するモデルをもたらす訓練データと自己超越目標について検討する。本研究では, 負サンプルの密度の増加が基本モデルを改善することを実証的に示し, 大域的負のキューを用いることで, 強負のサンプルを訓練しながらモデルをさらに改善・安定化する。
論文参考訳（メタデータ） (2021-10-14T07:44:14Z)
BEDS-Bench: Behavior of EHR-models under Distributional Shift--A Benchmark [21.040754460129854]
OOD設定下でのEHRデータ上でのMLモデルの振る舞いを定量化するベンチマークであるBEDS-Benchをリリースする。 BEDS-Bench の学習アルゴリズムを複数評価した結果,一般に分布シフト下での一般化性能の低下が判明した。
論文参考訳（メタデータ） (2021-07-17T05:53:24Z)
Measuring Fairness in Generative Models [38.167419334780526]
近年、深層データの公平性への関心が高まっている。公正データ生成の中心は、異なる生成モデルの評価と評価のための公正度指標である。
論文参考訳（メタデータ） (2021-07-16T08:12:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。