論文の概要: A Bag-of-Prototypes Representation for Dataset-Level Applications
- arxiv url: http://arxiv.org/abs/2303.13251v1
- Date: Thu, 23 Mar 2023 13:33:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 14:18:52.735646
- Title: A Bag-of-Prototypes Representation for Dataset-Level Applications
- Title(参考訳): データセットレベルアプリケーションのためのBag-of-Prototypes表現
- Authors: Weijie Tu, Weijian Deng, Tom Gedeon and Liang Zheng
- Abstract要約: 本研究では,データセットレベルの2つのタスクに対するデータセットベクトル化について検討する。
本稿では,パッチ記述子からなるイメージレベルバッグを,セマンティックプロトタイプからなるデータセットレベルバッグに拡張する,Bop-of-prototypes(BoP)データセット表現を提案する。
BoPは、2つのデータセットレベルのタスクに対する一連のベンチマークにおいて、既存の表現に対する優位性を一貫して示している。
- 参考スコア(独自算出の注目度): 24.629132557336312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work investigates dataset vectorization for two dataset-level tasks:
assessing training set suitability and test set difficulty. The former measures
how suitable a training set is for a target domain, while the latter studies
how challenging a test set is for a learned model. Central to the two tasks is
measuring the underlying relationship between datasets. This needs a desirable
dataset vectorization scheme, which should preserve as much discriminative
dataset information as possible so that the distance between the resulting
dataset vectors can reflect dataset-to-dataset similarity. To this end, we
propose a bag-of-prototypes (BoP) dataset representation that extends the
image-level bag consisting of patch descriptors to dataset-level bag consisting
of semantic prototypes. Specifically, we develop a codebook consisting of K
prototypes clustered from a reference dataset. Given a dataset to be encoded,
we quantize each of its image features to a certain prototype in the codebook
and obtain a K-dimensional histogram. Without assuming access to dataset
labels, the BoP representation provides a rich characterization of the dataset
semantic distribution. Furthermore, BoP representations cooperate well with
Jensen-Shannon divergence for measuring dataset-to-dataset similarity. Although
very simple, BoP consistently shows its advantage over existing representations
on a series of benchmarks for two dataset-level tasks.
- Abstract(参考訳): 本研究は,2つのデータセットレベルのタスクに対するデータセットベクトル化について検討する。
前者はトレーニングセットが対象ドメインにどの程度適しているかを測定し、後者はテストセットが学習モデルにどの程度適しているかを研究する。
2つのタスクの中心は、データセット間の基盤となる関係を測定することである。
これにより、データセットベクトル間の距離がデータセットとデータセットの類似性を反映できるように、可能な限り多くの識別データセット情報を保存できる望ましいデータセットベクトル化スキームが必要である。
そこで本研究では,パッチ記述子からなるイメージレベルバッグを,セマンティックプロトタイプからなるデータセットレベルバッグに拡張する,プロトタイプのバッグ(BoP)データセット表現を提案する。
具体的には、参照データセットからクラスタ化されたKプロトタイプからなるコードブックを開発する。
符号化されるデータセットが与えられると、その画像の特徴をコードブック内のあるプロトタイプに定量化し、k次元のヒストグラムを得る。
データセットラベルへのアクセスを前提とせずに、BoP表現はデータセットの意味分布の豊富な特徴を提供する。
さらに、データセット間の類似度を測定するため、BoP表現はJensen-Shannon分散とよく協力する。
非常に単純ではあるが、BoPは2つのデータセットレベルのタスクに対する一連のベンチマークにおける既存の表現に対して、常に優位性を示している。
関連論文リスト
- A Unified Manifold Similarity Measure Enhancing Few-Shot, Transfer, and Reinforcement Learning in Manifold-Distributed Datasets [1.2289361708127877]
2つの多様体構造間の類似性を決定する新しい方法を提案する。
この手法は、ターゲットとソースのデータセットが、伝達学習に適した類似した多様体構造を持つかどうかを判断するために用いられる。
次に,限定ラベル付き多様体分散データセットを分類するための数ショット学習法を提案する。
論文 参考訳(メタデータ) (2024-08-12T01:25:00Z) - Diffusion Models as Data Mining Tools [87.77999285241219]
本稿では、画像合成のために訓練された生成モデルを視覚データマイニングのツールとして利用する方法について述べる。
特定のデータセットから画像を合成するために条件拡散モデルを微調整した後、これらのモデルを用いて典型性尺度を定義することができることを示す。
この尺度は、地理的位置、タイムスタンプ、セマンティックラベル、さらには病気の存在など、異なるデータラベルに対する典型的な視覚的要素がどのように存在するかを評価する。
論文 参考訳(メタデータ) (2024-07-20T17:14:31Z) - Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - Navya3DSeg -- Navya 3D Semantic Segmentation Dataset & split generation
for autonomous vehicles [63.20765930558542]
3Dセマンティックデータは、障害物検出やエゴ-車両の局所化といった中核的な認識タスクに有用である。
そこで我々は,大規模生産段階の運用領域に対応する多様なラベル空間を持つ新しいデータセットであるNavala 3D(Navya3DSeg)を提案する。
ラベルのない23のラベル付きシーケンスと25の補足シーケンスが含まれており、ポイントクラウド上の自己教師付きおよび半教師付きセマンティックセマンティックセグメンテーションベンチマークを探索するために設計された。
論文 参考訳(メタデータ) (2023-02-16T13:41:19Z) - Detection Hub: Unifying Object Detection Datasets via Query Adaptation
on Language Embedding [137.3719377780593]
新しいデザイン(De Detection Hubという名前)は、データセット認識とカテゴリ整列である。
データセットの不整合を緩和し、検出器が複数のデータセットをまたいで学習するための一貫性のあるガイダンスを提供する。
データセット間のカテゴリは、ワンホットなカテゴリ表現を単語埋め込みに置き換えることで、意味的に統一された空間に整列される。
論文 参考訳(メタデータ) (2022-06-07T17:59:44Z) - Label-Free Model Evaluation with Semi-Structured Dataset Representations [78.54590197704088]
ラベルなしモデル評価(AutoEval)は、ラベルなしテストセットでモデル精度を推定する。
画像ラベルがない場合、データセット表現に基づいて、回帰を伴うAutoEvalのモデル性能を推定する。
本稿では,AutoEvalのリッチな情報を含む回帰学習のための半構造化データセット表現を提案する。
論文 参考訳(メタデータ) (2021-12-01T18:15:58Z) - Free Lunch for Co-Saliency Detection: Context Adjustment [14.688461235328306]
市販のサリエンシ検出データセットからの画像を利用して新しいサンプルを合成する「コストフリー」グループカットペースト(GCP)手順を提案する。
我々は、Context Adjustment Trainingと呼ばれる新しいデータセットを収集します。データセットの2つのバリエーション、すなわち、CATとCAT+は、それぞれ16,750と33,500の画像で構成されています。
論文 参考訳(メタデータ) (2021-08-04T14:51:37Z) - Simple multi-dataset detection [83.9604523643406]
複数の大規模データセット上で統合検出器を訓練する簡単な方法を提案する。
データセット固有のアウトプットを共通の意味分類に自動的に統合する方法を示す。
私たちのアプローチは手動の分類学の調整を必要としません。
論文 参考訳(メタデータ) (2021-02-25T18:55:58Z) - Self-supervised Robust Object Detectors from Partially Labelled Datasets [3.1669406516464007]
データセットをマージすることで、複数のオブジェクトをトレーニングする代わりに、1つの統合オブジェクト検出器をトレーニングすることができます。
本稿では,統合されたデータセットのラベルの欠落を克服するためのトレーニングフレームワークを提案する。
VOC2012 と VOC2007 を用いて,Yolo の誤り率 $approx!48%$ で,シミュレーションした統合データセット上で Yolo をトレーニングするためのフレームワークの評価を行った。
論文 参考訳(メタデータ) (2020-05-23T15:18:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。