論文の概要: Distance in Latent Space as Novelty Measure
- arxiv url: http://arxiv.org/abs/2003.14043v1
- Date: Tue, 31 Mar 2020 09:14:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 01:14:11.239788
- Title: Distance in Latent Space as Novelty Measure
- Title(参考訳): 新規測度としての潜在空間における距離
- Authors: Mark Philip Philipsen and Thomas Baltzer Moeslund
- Abstract要約: 本稿では,データセット構築時のサンプルをインテリジェントに選択することを提案する。
この選択手法は、2つの異なるサンプルがデータセット内の2つの類似したサンプル以上の価値があるという推定に基づいている。
自己教師付き手法を用いて潜在空間を構築することにより、空間がデータによく適合し、事前ラベリングの労力を回避できることが保証される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Learning performs well when training data densely covers the experience
space. For complex problems this makes data collection prohibitively expensive.
We propose to intelligently select samples when constructing data sets in order
to best utilize the available labeling budget. The selection methodology is
based on the presumption that two dissimilar samples are worth more than two
similar samples in a data set. Similarity is measured based on the Euclidean
distance between samples in the latent space produced by a DNN. By using a
self-supervised method to construct the latent space, it is ensured that the
space fits the data well and that any upfront labeling effort can be avoided.
The result is more efficient, diverse, and balanced data set, which produce
equal or superior results with fewer labeled examples.
- Abstract(参考訳): ディープラーニングは、データのトレーニングが経験空間を密にカバーする場合にうまく機能する。
複雑な問題に対して、これはデータ収集を禁止的に高価にする。
利用可能なラベリング予算を最大限活用するために,データセット構築時のサンプルをインテリジェントに選択することを提案する。
この選択法は、2つの異なるサンプルがデータセット内の2つ以上の類似したサンプルに値するという仮定に基づいている。
類似性は、DNNによって生成された潜伏空間のサンプル間のユークリッド距離に基づいて測定される。
潜在空間を構成するために自己教師あり手法を用いることで、空間がデータによく適合し、事前のラベル付け作業は避けられることが保証される。
結果はより効率的で多様性があり、バランスの取れたデータセットであり、ラベル付き例が少なく、同等または優れた結果が得られる。
関連論文リスト
- Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - Dataset Quantization with Active Learning based Adaptive Sampling [11.157462442942775]
また, 不均一なサンプル分布であっても, 性能維持が可能であることを示す。
サンプル選択を最適化するために,新しい能動的学習に基づく適応型サンプリング手法を提案する。
提案手法は,最先端のデータセット圧縮手法よりも優れている。
論文 参考訳(メタデータ) (2024-07-09T23:09:18Z) - D2 Pruning: Message Passing for Balancing Diversity and Difficulty in
Data Pruning [70.98091101459421]
コアセット選択は、トレーニングデータのサブセットを選択して、このサブセット(コアセットとも呼ばれる)でトレーニングされたモデルのパフォーマンスを最大化する。
コアセット選択のために,このデータセットグラフ上で前後のメッセージパッシングを利用する新しいプルーニングアルゴリズムD2プルーニングを提案する。
その結果、D2プルーニングは従来の最先端手法よりもコアセット選択を向上し、最大70%のプルーニングレートが得られた。
論文 参考訳(メタデータ) (2023-10-11T23:01:29Z) - Differences Between Hard and Noisy-labeled Samples: An Empirical Study [7.132368785057315]
ハード/ディフルトなサンプルを含むラベル付きデータセットからのノイズや誤ったラベル付きサンプルは、重要だが未調査のトピックである。
硬さを保ちながらノイズのあるラベル付きサンプルをフィルタリングする,単純で効果的な計量法を提案する。
提案手法は,半教師付き学習フレームワークにおいて,他の手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-20T09:24:23Z) - Linking data separation, visual separation, and classifier performance
using pseudo-labeling by contrastive learning [125.99533416395765]
最終分類器の性能は、潜在空間に存在するデータ分離と、射影に存在する視覚的分離に依存すると論じる。
本研究は,ヒト腸管寄生虫の5つの現実的課題の画像データセットを1%の教師付きサンプルで分類し,その結果を実証する。
論文 参考訳(メタデータ) (2023-02-06T10:01:38Z) - Shared Manifold Learning Using a Triplet Network for Multiple Sensor
Translation and Fusion with Missing Data [2.452410403088629]
コントラスト学習に基づくマルチモーダルアライメントネットワーク(CoMMANet)を提案する。
提案アーキテクチャでは,マルチモーダルな三重項オートエンコーダを用いて,各不均一なモジュラリティの同一クラスのサンプルが互いに近接してマッピングされるように潜在空間をクラスタリングする。
論文 参考訳(メタデータ) (2022-10-25T20:22:09Z) - Pareto Optimization for Active Learning under Out-of-Distribution Data
Scenarios [79.02009938011447]
本研究では,未ラベルデータプールからバッチサイズを固定した未ラベルサンプルの最適なサブセットを選択するサンプリング手法を提案する。
実験の結果,従来の機械学習(ML)タスクとディープラーニング(DL)タスクの両方において,その効果が示された。
論文 参考訳(メタデータ) (2022-07-04T04:11:44Z) - Combining Observational and Randomized Data for Estimating Heterogeneous
Treatment Effects [82.20189909620899]
不均一な治療効果を推定することは、多くの領域において重要な問題である。
現在、現存するほとんどの作品は観測データにのみ依存している。
本稿では、大量の観測データと少量のランダム化データを組み合わせることで、不均一な処理効果を推定する。
論文 参考訳(メタデータ) (2022-02-25T18:59:54Z) - Data Generation in Low Sample Size Setting Using Manifold Sampling and a
Geometry-Aware VAE [0.0]
我々は,潜在空間の幾何構造に基づく2つの非アンフリープリオリ依存生成手順を考案する。
後者の手法は、サンプルサイズの小さな設定でデータ拡張を行うために使用され、様々な標準および実生活データセットで検証される。
論文 参考訳(メタデータ) (2021-03-25T11:07:10Z) - Multi-Task Curriculum Framework for Open-Set Semi-Supervised Learning [54.85397562961903]
ラベル付きデータに制限がある場合に、ラベルなしデータを利用して強力なモデルをトレーニングする半教師付き学習(SSL)が提案されている。
我々は、Open-set SSLと呼ばれるより複雑な新しいシナリオに対処する。
提案手法は,OOD試料の効果を除去し,最先端の結果を得る。
論文 参考訳(メタデータ) (2020-07-22T10:33:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。