論文の概要: RK-core: An Established Methodology for Exploring the Hierarchical
Structure within Datasets
- arxiv url: http://arxiv.org/abs/2310.12168v1
- Date: Tue, 10 Oct 2023 10:48:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 02:11:17.985973
- Title: RK-core: An Established Methodology for Exploring the Hierarchical
Structure within Datasets
- Title(参考訳): RK-core:データセット内の階層構造を探索するための確立された方法論
- Authors: Yao Lu, Yutian Huang, Jiaqi Nie, Zuohui Chen, Qi Xuan
- Abstract要約: 我々は、データセット内の複雑な階層構造をより深く理解するために、RK-coreと呼ばれる先駆的なアプローチを導入する。
その結果, コア値の低いサンプルは, それぞれのカテゴリにはあまり代表性がなく, 逆に, 高いコア値のサンプルの方が, より高い代表性を示すことがわかった。
- 参考スコア(独自算出の注目度): 6.579012891929839
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, the field of machine learning has undergone a transition from
model-centric to data-centric. The advancements in diverse learning tasks have
been propelled by the accumulation of more extensive datasets, subsequently
facilitating the training of larger models on these datasets. However, these
datasets remain relatively under-explored. To this end, we introduce a
pioneering approach known as RK-core, to empower gaining a deeper understanding
of the intricate hierarchical structure within datasets. Across several
benchmark datasets, we find that samples with low coreness values appear less
representative of their respective categories, and conversely, those with high
coreness values exhibit greater representativeness. Correspondingly, samples
with high coreness values make a more substantial contribution to the
performance in comparison to those with low coreness values. Building upon
this, we further employ RK-core to analyze the hierarchical structure of
samples with different coreset selection methods. Remarkably, we find that a
high-quality coreset should exhibit hierarchical diversity instead of solely
opting for representative samples. The code is available at
https://github.com/yaolu-zjut/Kcore.
- Abstract(参考訳): 近年、機械学習の分野はモデル中心からデータ中心へと移行している。
多様な学習タスクの進歩は、より広範なデータセットの蓄積によって促進され、その後、これらのデータセット上のより大きなモデルのトレーニングが促進された。
しかし、これらのデータセットは比較的未調査のままである。
この目的のために、データセット内の複雑な階層構造をより深く理解するための、RK-coreと呼ばれる先駆的なアプローチを導入する。
いくつかのベンチマーク・データセットにおいて、コア値の低いサンプルはそれぞれのカテゴリにはあまり代表性がなく、逆に高いコア値のサンプルはより代表性を示す。
それに対応して、コア値の高いサンプルは、コア値の低いサンプルよりもパフォーマンスに大きく貢献する。
さらにRKコアを用いて,異なるコアセット選択法を用いてサンプルの階層構造を解析する。
注目すべきことに、高品質なコアセットは、代表サンプルのみを選択するのではなく、階層的な多様性を示すべきである。
コードはhttps://github.com/yaolu-zjut/kcoreで入手できる。
関連論文リスト
- From Logits to Hierarchies: Hierarchical Clustering made Simple [16.132657141993548]
事前訓練された非階層クラスタリングモデル上に実装された軽量なプロシージャは、階層クラスタリングに特化して設計されたモデルより優れていることを示す。
提案手法は,微調整を必要とせず,ログを出力する事前学習クラスタリングモデルに適用可能である。
論文 参考訳(メタデータ) (2024-10-10T12:27:45Z) - Learning Feature Inversion for Multi-class Anomaly Detection under General-purpose COCO-AD Benchmark [101.23684938489413]
異常検出(AD)は、しばしば産業品質検査や医学的病変検査のための異常の検出に焦点が当てられている。
この研究はまず、COCOをADフィールドに拡張することにより、大規模で汎用的なCOCO-ADデータセットを構築する。
セグメンテーション分野のメトリクスにインスパイアされた我々は、より実用的なしきい値に依存したAD固有のメトリクスをいくつか提案する。
論文 参考訳(メタデータ) (2024-04-16T17:38:26Z) - Composable Core-sets for Diversity Approximation on Multi-Dataset
Streams [4.765131728094872]
構成可能なコアセットはコアセットであり、コアセットのサブセットを結合して元のデータに対する近似を得るという性質を持つ。
本研究では,構成可能なコアセットを構築するためのコアセット構築アルゴリズムを導入し,アクティブな学習環境におけるストリームデータを要約する。
論文 参考訳(メタデータ) (2023-08-10T23:24:51Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - DC-BENCH: Dataset Condensation Benchmark [79.18718490863908]
この研究は、データセットの凝縮に関する最初の大規模標準ベンチマークを提供する。
それは、凝縮法の生成可能性と有効性を包括的に反映する一連の評価から成り立っている。
ベンチマークライブラリは、将来の研究とアプリケーションを容易にするためにオープンソース化されている。
論文 参考訳(メタデータ) (2022-07-20T03:54:05Z) - Open-Set Recognition: A Good Closed-Set Classifier is All You Need [146.6814176602689]
分類器が「ゼロ・オブ・ア・ア・ア・ベ」決定を行う能力は、閉集合クラスにおける精度と高い相関関係があることが示される。
この相関を利用して、閉セット精度を向上させることにより、クロスエントロピーOSR'ベースライン'の性能を向上させる。
また、セマンティックノベルティを検出するタスクをより尊重する新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2021-10-12T17:58:59Z) - Boxhead: A Dataset for Learning Hierarchical Representations [16.036906124241835]
階層的に構造化された基底構造生成因子を持つデータセットであるBoxheadを紹介する。
階層的モデルは一般に階層的に配置された因子の非絡み合いという点で単層VAEよりも優れる。
論文 参考訳(メタデータ) (2021-10-07T17:15:25Z) - Variational Auto Encoder Gradient Clustering [0.0]
近年,ディープニューラルネットワークモデルを用いたクラスタリングが広く研究されている。
本稿では、より良いクラスタリングを実現するために確率関数勾配上昇を使用してデータを処理する方法を検討する。
DBSCANクラスタリングアルゴリズムに基づいて,データに適したクラスタ数を調べるための簡便かつ効果的な方法を提案する。
論文 参考訳(メタデータ) (2021-05-11T08:00:36Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z) - DC-NAS: Divide-and-Conquer Neural Architecture Search [108.57785531758076]
本稿では,ディープ・ニューラル・アーキテクチャーを効果的かつ効率的に探索するためのディバイド・アンド・コンカ(DC)手法を提案する。
ImageNetデータセットで75.1%の精度を達成しており、これは同じ検索空間を使った最先端の手法よりも高い。
論文 参考訳(メタデータ) (2020-05-29T09:02:16Z) - High-order structure preserving graph neural network for few-shot
learning [10.296473510866228]
メタラーニングの類似度測定により,先行知識とクエリデータとの間の潜在構造情報を見つけることは少ない。
既存の手法のほとんどは、タスク内のサンプルの類似性関係をモデル化し、新しいカテゴリを特定するためにモデルを一般化しようとするものである。
提案した高次構造保存グラフニューラルネットワーク(HOSP-GNN)は,サンプルの豊富な構造を探索し,グラフ上のクエリデータのラベルを予測する。
論文 参考訳(メタデータ) (2020-05-29T06:38:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。