論文の概要: Benchmarking Transferability: A Framework for Fair and Robust Evaluation
- arxiv url: http://arxiv.org/abs/2504.20121v1
- Date: Mon, 28 Apr 2025 11:01:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.609759
- Title: Benchmarking Transferability: A Framework for Fair and Robust Evaluation
- Title(参考訳): ベンチマーク転送可能性:公正かつロバストな評価のためのフレームワーク
- Authors: Alireza Kazemi, Helia Rezvani, Mahsa Baktashmotlagh,
- Abstract要約: 転送可能性スコアは、あるドメインでトレーニングされたモデルがターゲットドメインにどのように一般化するかを定量化することを目的としています。
転送可能性を測定するための多くの方法が提案されているが、その信頼性と実用性は決定的ではない。
様々な設定で転送可能性スコアを体系的に評価するための総合的なベンチマークフレームワークを提案する。
- 参考スコア(独自算出の注目度): 6.9052557953336295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transferability scores aim to quantify how well a model trained on one domain generalizes to a target domain. Despite numerous methods proposed for measuring transferability, their reliability and practical usefulness remain inconclusive, often due to differing experimental setups, datasets, and assumptions. In this paper, we introduce a comprehensive benchmarking framework designed to systematically evaluate transferability scores across diverse settings. Through extensive experiments, we observe variations in how different metrics perform under various scenarios, suggesting that current evaluation practices may not fully capture each method's strengths and limitations. Our findings underscore the value of standardized assessment protocols, paving the way for more reliable transferability measures and better-informed model selection in cross-domain applications. Additionally, we achieved a 3.5\% improvement using our proposed metric for the head-training fine-tuning experimental setup. Our code is available in this repository: https://github.com/alizkzm/pert_robust_platform.
- Abstract(参考訳): 転送可能性スコアは、あるドメインでトレーニングされたモデルがターゲットドメインにどのように一般化するかを定量化することを目的としています。
転送可能性を測定するための多くの方法が提案されているが、その信頼性と実用性は、しばしば異なる実験的な設定、データセット、仮定のために決定的なままである。
本稿では,多種多様な設定における転送可能性スコアを体系的に評価するための総合的なベンチマークフレームワークを提案する。
広範な実験を通じて、様々なシナリオで異なるメトリクスがどのように機能するかを観察し、現在の評価手法がそれぞれのメソッドの強みや制限を完全に捉えていないことを示唆する。
本研究は、標準化された評価プロトコルの価値を強調し、より信頼性の高い転送可能性対策と、クロスドメインアプリケーションにおけるより良いインフォームドモデル選択の道を開くものである。
さらに, 頭部訓練実験装置において, 提案した測定値を用いて3.5倍の精度向上を実現した。
私たちのコードは、このリポジトリで利用可能です。
関連論文リスト
- Rectifying Conformity Scores for Better Conditional Coverage [75.73184036344908]
本稿では,分割共形予測フレームワーク内で信頼セットを生成する新しい手法を提案する。
本手法は,任意の適合度スコアのトレーニング可能な変換を行い,条件付き範囲を正確に確保しつつ,条件付き範囲を改善する。
論文 参考訳(メタデータ) (2025-02-22T19:54:14Z) - Beyond Models! Explainable Data Valuation and Metric Adaption for Recommendation [10.964035199849125]
現在の手法では、高品質なデータと低品質なデータとを区別するためにデータバリュエーションを採用している。
本稿では,任意の要求に合わせたデータ利用効率を向上させるための,説明可能な多用途フレームワークDVRを提案する。
筆者らのフレームワークは,NDCGの代表的な指標として,既存の手法よりも最大34.7%改善されている。
論文 参考訳(メタデータ) (2025-02-12T12:01:08Z) - PredBench: Benchmarking Spatio-Temporal Prediction across Diverse Disciplines [86.36060279469304]
予測時間ネットワークの総合評価に適したベンチマークであるPredBenchを紹介する。
このベンチマークでは、広く採用されている12のメソッドと、複数のアプリケーションドメインにまたがる多様なデータセットを統合する。
その多次元評価フレームワークは、総合的なメトリクスセットで分析を広げる。
論文 参考訳(メタデータ) (2024-07-11T11:51:36Z) - Beyond ELBOs: A Large-Scale Evaluation of Variational Methods for Sampling [14.668634411361307]
標準化されたタスクスイートと幅広い性能基準を用いてサンプリング手法を評価するベンチマークを導入する。
モード崩壊の定量化のための既存のメトリクスについて検討し、この目的のために新しいメトリクスを導入する。
論文 参考訳(メタデータ) (2024-06-11T16:23:33Z) - Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Better Understanding Differences in Attribution Methods via Systematic Evaluations [57.35035463793008]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。
本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。
これらの評価手法を用いて、広範囲のモデルにおいて広く用いられている属性手法の長所と短所について検討する。
論文 参考訳(メタデータ) (2023-03-21T14:24:58Z) - Accounting for multiplicity in machine learning benchmark performance [0.0]
最先端のパフォーマンスをSOTA(State-of-the-art)のパフォーマンスの見積として使うのはバイアスのある推定器であり、過度に楽観的な結果をもたらす。
本稿では、複数の分類器の場合の確率分布について、既知の解析手法を適用できるようにし、より優れたSOTA推定値を提供する。
論文 参考訳(メタデータ) (2023-03-10T10:32:18Z) - Towards Better Understanding Attribution Methods [77.1487219861185]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。
本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。
また,いくつかの属性法の性能を著しく向上する処理後平滑化ステップを提案する。
論文 参考訳(メタデータ) (2022-05-20T20:50:17Z) - How stable are Transferability Metrics evaluations? [32.24673254834567]
本研究では, 広範囲な715k実験装置を体系的に構築し, 大規模研究を行う。
実験装置の小さなバリエーションでさえ、移動可能性計量が他よりも優れているという結論を導き出す。
論文 参考訳(メタデータ) (2022-04-04T11:38:40Z) - SQE: a Self Quality Evaluation Metric for Parameters Optimization in
Multi-Object Tracking [25.723436561224297]
本稿では,パラメータ最適化のための新しい自己品質評価指標SQEを提案する。
対照的に、我々の計量は軌道仮説の内部特性を反映し、真理を示さずに性能を追跡する。
論文 参考訳(メタデータ) (2020-04-16T06:07:29Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。