Fugu-MT 論文翻訳(概要): Beyond Accuracy: Statistical Measures and Benchmark for Evaluation of Representation from Self-Supervised Learning

論文の概要: Beyond Accuracy: Statistical Measures and Benchmark for Evaluation of Representation from Self-Supervised Learning

arxiv url: http://arxiv.org/abs/2312.01118v1
Date: Sat, 2 Dec 2023 12:23:46 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-05 19:06:55.808754
Title: Beyond Accuracy: Statistical Measures and Benchmark for Evaluation of Representation from Self-Supervised Learning
Title（参考訳）: 正確性を超えた統計的尺度と自己指導型学習の表現評価基準
Authors: Jiantao Wu, Shentong Mo, Sara Atito, Josef Kittler, Zhenhua Feng, Muhammad Awais
Abstract要約: 自己教師付きメートル法学習は、一般的な距離関数を学習する可能性に注意を向けている。我々は,ImageNet-21K と WordNet をベースとした,クラスの多様性と粒度を備えた大規模ベンチマークを提案する。 SMLBは、14M以上の画像、20Kクラス、および16Kの分類ノードで識別的識別性と一般化性を厳格に評価するように設計されている。
参考スコア（独自算出の注目度）: 39.424931953675994
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, self-supervised metric learning has raised attention for the potential to learn a generic distance function. It overcomes the limitations of conventional supervised one, e.g., scalability and label biases. Despite progress in this domain, current benchmarks, incorporating a narrow scope of classes, stop the nuanced evaluation of semantic representations. To bridge this gap, we introduce a large-scale benchmark with diversity and granularity of classes, Statistical Metric Learning Benchmark (SMLB) built upon ImageNet-21K and WordNet. SMLB is designed to rigorously evaluate the discriminative discernment and generalizability across more than 14M images, 20K classes, and 16K taxonomic nodes. Alongside, we propose novel evaluation metrics -- `overlap' for separability and `aSTD' for consistency -- to measure distance statistical information, which are efficient and robust to the change of class number. Our benchmark offers a novel perspective of evaluating the quality of representations beyond accuracy. Our findings reveal the limitations of supervised learning and the class bias inherent in SSL models, offering insights into potential areas for future model enhancement.
Abstract（参考訳）: 近年,自己教師付き距離学習が汎用距離関数を学習する可能性に注目が集まっている。従来の管理対象であるスケーラビリティやラベルバイアスの制限を克服するものだ。このドメインの進歩にもかかわらず、クラスの範囲が狭い現在のベンチマークは、意味表現のニュアンス評価を止める。このギャップを埋めるために,ImageNet-21KとWordNet上に構築された,多様なクラスと粒度を持つ大規模ベンチマーク,統計量学習ベンチマーク(SMLB)を導入する。 SMLBは、14M以上の画像、20Kクラス、および16Kの分類ノードで識別的識別性と一般化性を厳格に評価するように設計されている。また,クラス数の変化に対して効率的かつ堅牢な距離統計情報を測定するために,分離性評価指標「オーバーラップ」と一貫性評価指標「aSTD」を提案する。我々のベンチマークは、精度を超えて表現の質を評価する新しい視点を提供する。本研究は,SSLモデルに固有の教師付き学習の限界とクラスバイアスを明らかにし,今後のモデル強化の可能性について考察した。

関連論文リスト

Are We Truly Forgetting? A Critical Re-examination of Machine Unlearning Evaluation Protocols [14.961054239793356]
我々は,大規模シナリオ下での未学習モデルの表現に基づく評価を用いた新しい包括的評価を行う。我々の分析によると、現在の最先端の未学習アプローチは、未学習モデルの表現品質を完全に低下させるか、または完全に低下させる。本稿では,下流のタスククラスと意味的類似性を示す,移動学習の観点からの新たなアンラーニング評価手法を提案する。
論文参考訳（メタデータ） (2025-03-10T07:11:34Z)
MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。 MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文参考訳（メタデータ） (2024-10-14T04:15:00Z)
Mind the Prompt: A Novel Benchmark for Prompt-based Class-Agnostic Counting [8.000723123087473]
CAC(Class-Agnostic counting)は、コンピュータビジョンにおける最近の課題であり、モデルトレーニング中に見たことのない任意のオブジェクトクラスのインスタンス数を推定することを目的としている。 Prompt-Aware Countingベンチマークを導入する。このベンチマークは2つのターゲットテストで構成されており、それぞれに適切な評価指標が伴っている。
論文参考訳（メタデータ） (2024-09-24T10:35:42Z)
Revisiting Evaluation Metrics for Semantic Segmentation: Optimization and Evaluation of Fine-grained Intersection over Union [113.20223082664681]
そこで本研究では,mIoUsの微細化と,それに対応する最悪の指標を提案する。これらのきめ細かいメトリクスは、大きなオブジェクトに対するバイアスの低減、よりリッチな統計情報、モデルとデータセット監査に関する貴重な洞察を提供する。ベンチマークでは,1つの測定値に基づかないことの必要性を強調し,微細なmIoUsが大きな物体への偏りを減少させることを確認した。
論文参考訳（メタデータ） (2023-10-30T03:45:15Z)
What a MESS: Multi-Domain Evaluation of Zero-Shot Semantic Segmentation [2.7036595757881323]
セマンティック(MESS)のマルチドメイン評価のためのベンチマークを構築した。 MESSは、幅広いドメイン固有のデータセットにわたるパフォーマンスの全体的な分析を可能にする。提案したMESSベンチマークを用いて,最近発表された8つのモデルを評価し,ゼロショット転送モデルの性能評価を行った。
論文参考訳（メタデータ） (2023-06-27T14:47:43Z)
Fairness meets Cross-Domain Learning: a new perspective on Models and Metrics [80.07271410743806]
クロスドメイン学習(CD)とモデルフェアネスの関係について検討する。いくつかの人口集団にまたがる顔画像と医療画像のベンチマークと、分類とローカライゼーションタスクについて紹介する。本研究は,3つの最先端フェアネスアルゴリズムとともに,14のCDアプローチをカバーし,前者が後者に勝ることを示す。
論文参考訳（メタデータ） (2023-03-25T09:34:05Z)
Using Representation Expressiveness and Learnability to Evaluate Self-Supervised Learning Methods [61.49061000562676]
本稿では,学習可能性を評価するためにCluster Learnability (CL)を導入する。 CLは、K-meansで表現をクラスタリングすることによって得られたラベルを予測するために訓練されたKNNのパフォーマンスで測定される。 CLは、他の競合する評価手法よりも分布内モデルの性能と相関することがわかった。
論文参考訳（メタデータ） (2022-06-02T19:05:13Z)
Who Explains the Explanation? Quantitatively Assessing Feature Attribution Methods [0.0]
本稿では,説明の忠実度を定量化するための新しい評価指標であるフォーカス(Focus)を提案する。ランダム化実験によって測定値のロバスト性を示し、次にFocusを用いて3つの一般的な説明可能性手法を評価し比較する。実験の結果,LRPとGradCAMは一貫性があり信頼性が高いことがわかった。
論文参考訳（メタデータ） (2021-09-28T07:10:24Z)
Calibrating Class Activation Maps for Long-Tailed Visual Recognition [60.77124328049557]
本稿では,CNNの長期分布からネットワーク学習を改善するための2つの効果的な修正を提案する。まず,ネットワーク分類器の学習と予測を改善するために,CAMC (Class Activation Map) モジュールを提案する。第2に,長期化問題における表現学習における正規化分類器の利用について検討する。
論文参考訳（メタデータ） (2021-08-29T05:45:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。