論文の概要: Label-Free Model Evaluation with Semi-Structured Dataset Representations
- arxiv url: http://arxiv.org/abs/2112.00694v1
- Date: Wed, 1 Dec 2021 18:15:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-02 14:53:52.878124
- Title: Label-Free Model Evaluation with Semi-Structured Dataset Representations
- Title(参考訳): 半構造化データセット表現を用いたラベルフリーモデル評価
- Authors: Xiaoxiao Sun, Yunzhong Hou, Hongdong Li, Liang Zheng
- Abstract要約: ラベルなしモデル評価(AutoEval)は、ラベルなしテストセットでモデル精度を推定する。
画像ラベルがない場合、データセット表現に基づいて、回帰を伴うAutoEvalのモデル性能を推定する。
本稿では,AutoEvalのリッチな情報を含む回帰学習のための半構造化データセット表現を提案する。
- 参考スコア(独自算出の注目度): 78.54590197704088
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Label-free model evaluation, or AutoEval, estimates model accuracy on
unlabeled test sets, and is critical for understanding model behaviors in
various unseen environments. In the absence of image labels, based on dataset
representations, we estimate model performance for AutoEval with regression. On
the one hand, image feature is a straightforward choice for such
representations, but it hampers regression learning due to being unstructured
(\ie no specific meanings for component at certain location) and of
large-scale. On the other hand, previous methods adopt simple structured
representations (like average confidence or average feature), but insufficient
to capture the data characteristics given their limited dimensions. In this
work, we take the best of both worlds and propose a new semi-structured dataset
representation that is manageable for regression learning while containing rich
information for AutoEval. Based on image features, we integrate distribution
shapes, clusters, and representative samples for a semi-structured dataset
representation. Besides the structured overall description with distribution
shapes, the unstructured description with clusters and representative samples
include additional fine-grained information facilitating the AutoEval task. On
three existing datasets and 25 newly introduced ones, we experimentally show
that the proposed representation achieves competitive results. Code and dataset
are available at
https://github.com/sxzrt/Semi-Structured-Dataset-Representations.
- Abstract(参考訳): ラベルのないモデル評価(AutoEval)は、ラベルのないテストセットでモデル精度を推定し、目に見えない様々な環境におけるモデル動作を理解するために重要である。
画像ラベルがない場合、データセット表現に基づいて、回帰を伴うAutoEvalのモデル性能を推定する。
一方、画像の特徴は、そのような表現にとって単純な選択であるが、非構造的(特定の場所でコンポーネントに特定の意味がない)で大規模な回帰学習を妨げている。
一方、従来の手法では単純な構造表現(平均信頼度や平均的特徴など)を採用するが、限られた次元でデータ特性を捉えるには不十分である。
本稿では,両世界のベストを尽くし,AutoEvalの豊富な情報を含むレグレッション学習に適した,新しい半構造化データセット表現を提案する。
画像特徴に基づいて,半構造化データセット表現のための分布形状,クラスタ,代表サンプルを統合する。
分散形状を持つ構造化全体記述の他に、クラスタと代表サンプルによる非構造化記述には、自己評価タスクを容易にする追加のきめ細かい情報が含まれている。
既存の3つのデータセットと25の新たなデータセットに対して,提案した表現が競合する結果が得られることを示す。
コードとデータセットはhttps://github.com/sxzrt/semi-structured-dataset-representationsで入手できる。
関連論文リスト
- Diffusion Models as Data Mining Tools [87.77999285241219]
本稿では、画像合成のために訓練された生成モデルを視覚データマイニングのツールとして利用する方法について述べる。
特定のデータセットから画像を合成するために条件拡散モデルを微調整した後、これらのモデルを用いて典型性尺度を定義することができることを示す。
この尺度は、地理的位置、タイムスタンプ、セマンティックラベル、さらには病気の存在など、異なるデータラベルに対する典型的な視覚的要素がどのように存在するかを評価する。
論文 参考訳(メタデータ) (2024-07-20T17:14:31Z) - TRIAGE: Characterizing and auditing training data for improved
regression [80.11415390605215]
TRIAGEは回帰タスクに適した新しいデータキャラクタリゼーションフレームワークで、広範囲の回帰器と互換性がある。
TRIAGEは、共形予測分布を利用して、モデルに依存しないスコアリング方法、TRIAGEスコアを提供する。
TRIAGEの特徴は一貫性があり、複数の回帰設定においてデータの彫刻/フィルタリングによるパフォーマンス向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-10-29T10:31:59Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - A Bag-of-Prototypes Representation for Dataset-Level Applications [24.629132557336312]
本研究では,データセットレベルの2つのタスクに対するデータセットベクトル化について検討する。
本稿では,パッチ記述子からなるイメージレベルバッグを,セマンティックプロトタイプからなるデータセットレベルバッグに拡張する,Bop-of-prototypes(BoP)データセット表現を提案する。
BoPは、2つのデータセットレベルのタスクに対する一連のベンチマークにおいて、既存の表現に対する優位性を一貫して示している。
論文 参考訳(メタデータ) (2023-03-23T13:33:58Z) - MSeg: A Composite Dataset for Multi-domain Semantic Segmentation [100.17755160696939]
セマンティックセグメンテーションデータセットを異なるドメインから統合する合成データセットであるMSegを提案する。
一般化と画素レベルのアノテーションのアライメントを調整し,2万枚以上のオブジェクトマスクを8万枚以上の画像で再現する。
MSegでトレーニングされたモデルは、WildDash-v1のリーダーボードで、トレーニング中にWildDashのデータに触れることなく、堅牢なセマンティックセグメンテーションのためにランク付けされている。
論文 参考訳(メタデータ) (2021-12-27T16:16:35Z) - Understanding Dynamics of Nonlinear Representation Learning and Its
Application [12.697842097171119]
暗黙的非線形表現学習のダイナミクスについて検討する。
我々は,データ構造アライメント条件がグローバル収束に十分であることを示す。
我々はデータ構造アライメント条件を満たす新しいトレーニングフレームワークを作成した。
論文 参考訳(メタデータ) (2021-06-28T16:31:30Z) - Are Labels Always Necessary for Classifier Accuracy Evaluation? [28.110519483540482]
ラベルなしテストデータセットの分類精度を推定することを目的としている。
元の画像から生成されたデータセットからなるメタデータセットを構築する。
各サンプル(データセット)上のモデルの分類精度は、元のデータセットラベルから知られているので、回帰によってそのタスクを解くことができる。
論文 参考訳(メタデータ) (2020-07-06T17:45:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。