論文の概要: A Bag-of-Prototypes Representation for Dataset-Level Applications
- arxiv url: http://arxiv.org/abs/2303.13251v1
- Date: Thu, 23 Mar 2023 13:33:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 14:18:52.735646
- Title: A Bag-of-Prototypes Representation for Dataset-Level Applications
- Title(参考訳): データセットレベルアプリケーションのためのBag-of-Prototypes表現
- Authors: Weijie Tu, Weijian Deng, Tom Gedeon and Liang Zheng
- Abstract要約: 本研究では,データセットレベルの2つのタスクに対するデータセットベクトル化について検討する。
本稿では,パッチ記述子からなるイメージレベルバッグを,セマンティックプロトタイプからなるデータセットレベルバッグに拡張する,Bop-of-prototypes(BoP)データセット表現を提案する。
BoPは、2つのデータセットレベルのタスクに対する一連のベンチマークにおいて、既存の表現に対する優位性を一貫して示している。
- 参考スコア(独自算出の注目度): 24.629132557336312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work investigates dataset vectorization for two dataset-level tasks:
assessing training set suitability and test set difficulty. The former measures
how suitable a training set is for a target domain, while the latter studies
how challenging a test set is for a learned model. Central to the two tasks is
measuring the underlying relationship between datasets. This needs a desirable
dataset vectorization scheme, which should preserve as much discriminative
dataset information as possible so that the distance between the resulting
dataset vectors can reflect dataset-to-dataset similarity. To this end, we
propose a bag-of-prototypes (BoP) dataset representation that extends the
image-level bag consisting of patch descriptors to dataset-level bag consisting
of semantic prototypes. Specifically, we develop a codebook consisting of K
prototypes clustered from a reference dataset. Given a dataset to be encoded,
we quantize each of its image features to a certain prototype in the codebook
and obtain a K-dimensional histogram. Without assuming access to dataset
labels, the BoP representation provides a rich characterization of the dataset
semantic distribution. Furthermore, BoP representations cooperate well with
Jensen-Shannon divergence for measuring dataset-to-dataset similarity. Although
very simple, BoP consistently shows its advantage over existing representations
on a series of benchmarks for two dataset-level tasks.
- Abstract(参考訳): 本研究は,2つのデータセットレベルのタスクに対するデータセットベクトル化について検討する。
前者はトレーニングセットが対象ドメインにどの程度適しているかを測定し、後者はテストセットが学習モデルにどの程度適しているかを研究する。
2つのタスクの中心は、データセット間の基盤となる関係を測定することである。
これにより、データセットベクトル間の距離がデータセットとデータセットの類似性を反映できるように、可能な限り多くの識別データセット情報を保存できる望ましいデータセットベクトル化スキームが必要である。
そこで本研究では,パッチ記述子からなるイメージレベルバッグを,セマンティックプロトタイプからなるデータセットレベルバッグに拡張する,プロトタイプのバッグ(BoP)データセット表現を提案する。
具体的には、参照データセットからクラスタ化されたKプロトタイプからなるコードブックを開発する。
符号化されるデータセットが与えられると、その画像の特徴をコードブック内のあるプロトタイプに定量化し、k次元のヒストグラムを得る。
データセットラベルへのアクセスを前提とせずに、BoP表現はデータセットの意味分布の豊富な特徴を提供する。
さらに、データセット間の類似度を測定するため、BoP表現はJensen-Shannon分散とよく協力する。
非常に単純ではあるが、BoPは2つのデータセットレベルのタスクに対する一連のベンチマークにおける既存の表現に対して、常に優位性を示している。
関連論文リスト
- Paved2Paradise: Cost-Effective and Scalable LiDAR Simulation by
Factoring the Real World [0.3108011671896571]
Paved2Paradiseは、スクラッチからライダーデータセットを生成するためのシンプルで費用対効果の高いアプローチである。
Paved2Paradise合成データのみを訓練したモデルが果樹園におけるヒトの検出に極めて有効であることを示す。
論文 参考訳(メタデータ) (2023-12-02T12:23:07Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - Navya3DSeg -- Navya 3D Semantic Segmentation Dataset & split generation
for autonomous vehicles [63.20765930558542]
3Dセマンティックデータは、障害物検出やエゴ-車両の局所化といった中核的な認識タスクに有用である。
そこで我々は,大規模生産段階の運用領域に対応する多様なラベル空間を持つ新しいデータセットであるNavala 3D(Navya3DSeg)を提案する。
ラベルのない23のラベル付きシーケンスと25の補足シーケンスが含まれており、ポイントクラウド上の自己教師付きおよび半教師付きセマンティックセマンティックセグメンテーションベンチマークを探索するために設計された。
論文 参考訳(メタデータ) (2023-02-16T13:41:19Z) - Detection Hub: Unifying Object Detection Datasets via Query Adaptation
on Language Embedding [137.3719377780593]
新しいデザイン(De Detection Hubという名前)は、データセット認識とカテゴリ整列である。
データセットの不整合を緩和し、検出器が複数のデータセットをまたいで学習するための一貫性のあるガイダンスを提供する。
データセット間のカテゴリは、ワンホットなカテゴリ表現を単語埋め込みに置き換えることで、意味的に統一された空間に整列される。
論文 参考訳(メタデータ) (2022-06-07T17:59:44Z) - Label-Free Model Evaluation with Semi-Structured Dataset Representations [78.54590197704088]
ラベルなしモデル評価(AutoEval)は、ラベルなしテストセットでモデル精度を推定する。
画像ラベルがない場合、データセット表現に基づいて、回帰を伴うAutoEvalのモデル性能を推定する。
本稿では,AutoEvalのリッチな情報を含む回帰学習のための半構造化データセット表現を提案する。
論文 参考訳(メタデータ) (2021-12-01T18:15:58Z) - Learning Co-segmentation by Segment Swapping for Retrieval and Discovery [67.6609943904996]
この研究の目的は、一対のイメージから視覚的に類似したパターンを効率的に識別することである。
画像中のオブジェクトセグメントを選択し、それを別の画像にコピーペーストすることで、合成トレーニングペアを生成する。
提案手法は,Brueghelデータセット上でのアートワークの詳細検索に対して,明確な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2021-10-29T16:51:16Z) - Active Learning for Improved Semi-Supervised Semantic Segmentation in
Satellite Images [1.0152838128195467]
半教師付きテクニックは、ラベル付きサンプルの小さなセットから擬似ラベルを生成する。
そこで我々は,ラベル付きトレーニングデータの集合を高度に代表的に選択するために,アクティブな学習に基づくサンプリング戦略を提案する。
我々はmIoUの27%の改善を報告し、2%のラベル付きデータをアクティブラーニングサンプリング戦略を用いて報告した。
論文 参考訳(メタデータ) (2021-10-15T00:29:31Z) - Free Lunch for Co-Saliency Detection: Context Adjustment [14.688461235328306]
市販のサリエンシ検出データセットからの画像を利用して新しいサンプルを合成する「コストフリー」グループカットペースト(GCP)手順を提案する。
我々は、Context Adjustment Trainingと呼ばれる新しいデータセットを収集します。データセットの2つのバリエーション、すなわち、CATとCAT+は、それぞれ16,750と33,500の画像で構成されています。
論文 参考訳(メタデータ) (2021-08-04T14:51:37Z) - Simple multi-dataset detection [83.9604523643406]
複数の大規模データセット上で統合検出器を訓練する簡単な方法を提案する。
データセット固有のアウトプットを共通の意味分類に自動的に統合する方法を示す。
私たちのアプローチは手動の分類学の調整を必要としません。
論文 参考訳(メタデータ) (2021-02-25T18:55:58Z) - Self-supervised Robust Object Detectors from Partially Labelled Datasets [3.1669406516464007]
データセットをマージすることで、複数のオブジェクトをトレーニングする代わりに、1つの統合オブジェクト検出器をトレーニングすることができます。
本稿では,統合されたデータセットのラベルの欠落を克服するためのトレーニングフレームワークを提案する。
VOC2012 と VOC2007 を用いて,Yolo の誤り率 $approx!48%$ で,シミュレーションした統合データセット上で Yolo をトレーニングするためのフレームワークの評価を行った。
論文 参考訳(メタデータ) (2020-05-23T15:18:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。