論文の概要: Towards a Unified Representation Evaluation Framework Beyond Downstream Tasks
- arxiv url: http://arxiv.org/abs/2505.06224v1
- Date: Fri, 09 May 2025 17:58:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:10.360293
- Title: Towards a Unified Representation Evaluation Framework Beyond Downstream Tasks
- Title(参考訳): 下流タスクを越えた統一表現評価フレームワークを目指して
- Authors: Christos Plachouras, Julien Guinot, George Fazekas, Elio Quinton, Emmanouil Benetos, Johan Pauwels,
- Abstract要約: モデル表現における情報性、等分散、不変性、および要因の分散を定量化するための標準化されたプロトコルを導入する。
類似のダウンストリーム性能を持つモデルからの表現は、これらの属性に関して、かなり異なる振る舞いをすることができる。
- 参考スコア(独自算出の注目度): 9.390951257874187
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Downstream probing has been the dominant method for evaluating model representations, an important process given the increasing prominence of self-supervised learning and foundation models. However, downstream probing primarily assesses the availability of task-relevant information in the model's latent space, overlooking attributes such as equivariance, invariance, and disentanglement, which contribute to the interpretability, adaptability, and utility of representations in real-world applications. While some attempts have been made to measure these qualities in representations, no unified evaluation framework with modular, generalizable, and interpretable metrics exists. In this paper, we argue for the importance of representation evaluation beyond downstream probing. We introduce a standardized protocol to quantify informativeness, equivariance, invariance, and disentanglement of factors of variation in model representations. We use it to evaluate representations from a variety of models in the image and speech domains using different architectures and pretraining approaches on identified controllable factors of variation. We find that representations from models with similar downstream performance can behave substantially differently with regard to these attributes. This hints that the respective mechanisms underlying their downstream performance are functionally different, prompting new research directions to understand and improve representations.
- Abstract(参考訳): 下流の探索は,自己指導型学習モデルや基礎モデルの普及を考えると,モデル表現を評価する上で支配的な手法である。
しかし、下流探索は、主にモデルの潜在空間におけるタスク関連情報の可用性を評価し、同値性、不変性、非絡み合いなどの特性を見極め、現実世界のアプリケーションにおける表現の解釈可能性、適応性、有用性に寄与する。
これらの特性を表現で測定する試みはいくつかあるが、モジュラー、一般化可能、解釈可能なメトリクスを持つ統一評価フレームワークは存在しない。
本稿では,下流探索以上の表現評価の重要性を論じる。
モデル表現における情報性、等分散、不変性、および要因の分散を定量化するための標準化されたプロトコルを導入する。
画像領域と音声領域における様々なモデルからの表現を、異なるアーキテクチャを用いて評価し、変動の制御可能な要因を事前学習する。
類似のダウンストリーム性能を持つモデルからの表現は、これらの属性に関して、かなり異なる振る舞いをすることができる。
このことは、下流のパフォーマンスの基盤となる各メカニズムが機能的に異なることを示唆し、新しい研究の方向性が表現を理解し改善することを促す。
関連論文リスト
- MASCOTS: Model-Agnostic Symbolic COunterfactual explanations for Time Series [4.664512594743523]
モデルに依存しない方法で有意義で多様な対実観測を生成するMASCOTSを導入する。
シンボリックな特徴空間で操作することで、MASCOTSは元のデータとモデルへの忠実さを維持しながら解釈可能性を高める。
論文 参考訳(メタデータ) (2025-03-28T12:48:12Z) - Explanatory Model Monitoring to Understand the Effects of Feature Shifts on Performance [61.06245197347139]
そこで本研究では,機能シフトによるブラックボックスモデルの振る舞いを説明する新しい手法を提案する。
本稿では,最適輸送と共有値の概念を組み合わせた提案手法について,説明的性能推定として紹介する。
論文 参考訳(メタデータ) (2024-08-24T18:28:19Z) - Flow Factorized Representation Learning [109.51947536586677]
本稿では、異なる入力変換を定義する潜在確率パスの別個のセットを規定する生成モデルを提案する。
本モデルは,ほぼ同変モデルに近づきながら,標準表現学習ベンチマークにおいて高い確率を達成することを示す。
論文 参考訳(メタデータ) (2023-09-22T20:15:37Z) - COSE: A Consistency-Sensitivity Metric for Saliency on Image
Classification [21.3855970055692]
本稿では,画像分類タスクにおいて,視覚の先行値を用いてサリエンシ手法の性能を評価する指標について述べる。
しかし,ほとんどの手法では,畳み込みモデルよりもトランスフォーマーモデルの方がよく説明できる。
論文 参考訳(メタデータ) (2023-09-20T01:06:44Z) - IMACS: Image Model Attribution Comparison Summaries [16.80986701058596]
我々は,勾配に基づくモデル属性とアグリゲーションと可視化技術を組み合わせたIMACSを提案する。
IMACSは評価データセットから適切な入力特徴を抽出し、類似性に基づいてクラスタ化し、類似した入力特徴に対するモデル属性の違いを可視化する。
本稿では,衛星画像上で訓練した2つのモデル間の領域シフトによる行動差を明らかにする方法を示す。
論文 参考訳(メタデータ) (2022-01-26T21:35:14Z) - Attentional Prototype Inference for Few-Shot Segmentation [128.45753577331422]
数発のセグメンテーションのための確率的潜在変数フレームワークである注意型プロトタイプ推論(API)を提案する。
我々は各オブジェクトカテゴリのプロトタイプを表現するためにグローバル潜在変数を定義し、確率分布としてモデル化する。
我々は4つのベンチマークで広範な実験を行い、提案手法は最先端のプロトタイプベースの手法よりも、少なくとも競争力があり、しばしば優れた性能が得られる。
論文 参考訳(メタデータ) (2021-05-14T06:58:44Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。