論文の概要: Improving Clustering on Occupational Text Data through Dimensionality Reduction
- arxiv url: http://arxiv.org/abs/2507.07582v1
- Date: Thu, 10 Jul 2025 09:36:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.343067
- Title: Improving Clustering on Occupational Text Data through Dimensionality Reduction
- Title(参考訳): 次元化による作業テキストデータのクラスタリング改善
- Authors: Iago Xabier Vázquez García, Damla Partanaz, Emrullah Fatih Yetkin,
- Abstract要約: 本稿では,アメリカの職業データベースO*NETで定義された職業に対する最適なクラスタリング機構を提案する。
そこで我々は,BERTをベースとした様々なクラスタリング手法を用いて,そのようなマップを得るパイプラインを提案する。
また,クラスタリングアルゴリズムの性能測定において,次元削減手法がいくつかの指標に与える影響についても検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this study, we focused on proposing an optimal clustering mechanism for the occupations defined in the well-known US-based occupational database, O*NET. Even though all occupations are defined according to well-conducted surveys in the US, their definitions can vary for different firms and countries. Hence, if one wants to expand the data that is already collected in O*NET for the occupations defined with different tasks, a map between the definitions will be a vital requirement. We proposed a pipeline using several BERT-based techniques with various clustering approaches to obtain such a map. We also examined the effect of dimensionality reduction approaches on several metrics used in measuring performance of clustering algorithms. Finally, we improved our results by using a specialized silhouette approach. This new clustering-based mapping approach with dimensionality reduction may help distinguish the occupations automatically, creating new paths for people wanting to change their careers.
- Abstract(参考訳): 本研究では、よく知られたアメリカの職業データベースO*NETで定義された職業に対する最適なクラスタリング機構を提案する。
すべての職種は、米国の順調な調査に基づいて定義されているが、その定義は企業や国によって異なる可能性がある。
したがって、O*NETですでに収集されているデータを、異なるタスクで定義された作業のために拡張したい場合、定義間のマップが不可欠である。
そこで我々は,BERTをベースとした様々なクラスタリング手法を用いて,そのようなマップを得るパイプラインを提案する。
また,クラスタリングアルゴリズムの性能測定において,次元削減手法がいくつかの指標に与える影響についても検討した。
最後に,特殊シルエット法を用いて結果を改善した。
新しいクラスタリングベースのマッピングアプローチでは、次元を縮小することで、自動的に職業を区別し、キャリアを変えたい人のための新しいパスを作成することができる。
関連論文リスト
- Self-supervised Latent Space Optimization with Nebula Variational Coding [87.20343320266215]
本稿では,クラスタ化埋め込みに繋がる変分推論モデルを提案する。
textbfnebula anchorsと呼ばれる潜伏空間に新たな変数を導入し、トレーニング中に潜伏変数がクラスタを形成するように誘導する。
各潜在機能は最も近いアンカーでラベル付けできるため、クラスタ間の分離をより明確にするために、自己教師付き方法でメートル法学習を適用することも提案する。
論文 参考訳(メタデータ) (2025-06-02T08:13:32Z) - Adaptive and Robust DBSCAN with Multi-agent Reinforcement Learning [53.527506374566485]
本稿では,多エージェント強化学習クラスタフレームワーク,すなわちAR-DBSCANを用いた新しいAdaptive and Robust DBSCANを提案する。
我々は、AR-DBSCANが、NMIおよびARIメトリクスの最大144.1%と175.3%のクラスタリング精度を向上するだけでなく、支配的なパラメータを確実に見つけることができることを示した。
論文 参考訳(メタデータ) (2025-05-07T11:37:23Z) - Algorithm Performance Spaces for Strategic Dataset Selection [0.0]
推薦システムにおける新しいアルゴリズムの評価は、MovieLensやAmazonなどの公開データセットに依存することが多い。
この論文では、アルゴリズムに適用されたアルゴリズムの計測パフォーマンスに基づいてデータセットを区別するように設計されたフレームワークである、アルゴリズムパフォーマンススペースを紹介している。
論文 参考訳(メタデータ) (2025-04-29T12:29:52Z) - Ensembles of Low-Rank Expert Adapters [9.599957499802446]
本稿では,多種多様なタスクを扱うモデルの能力を向上させるために,低ランクエキスパートアダプタ(ELREA)フレームワークの組み立てを提案する。
ELREAは、トレーニング指示をその勾配方向に基づいてクラスタ化し、さまざまな専門分野を表現している。
推論中、ELREAは、入力データの勾配とトレーニングクラスタとの類似性に基づいて、最も関連する専門家アダプタからの予測を組み合わせる。
論文 参考訳(メタデータ) (2025-01-31T18:07:21Z) - Distributional Reduction: Unifying Dimensionality Reduction and Clustering with Gromov-Wasserstein [56.62376364594194]
教師なし学習は、潜在的に大きな高次元データセットの基盤構造を捉えることを目的としている。
本研究では、最適輸送のレンズの下でこれらのアプローチを再検討し、Gromov-Wasserstein問題と関係を示す。
これにより、分散還元と呼ばれる新しい一般的なフレームワークが公開され、DRとクラスタリングを特別なケースとして回復し、単一の最適化問題内でそれらに共同で対処することができる。
論文 参考訳(メタデータ) (2024-02-03T19:00:19Z) - INoD: Injected Noise Discriminator for Self-Supervised Representation
Learning in Agricultural Fields [6.891600948991265]
Injected Noise Discriminator (INoD) を提案する。
INoDは、畳み込みエンコーディング中に2つの非結合データセットからフィーチャーマップをインターリーブし、結果のフィーチャーマップのデータセットアフィリエイトをプレテキストタスクとして予測する。
提案手法により、ネットワークは、あるデータセットで見られるオブジェクトの無意味な表現を学習し、解離したデータセットの類似した特徴と合わせて観察することができる。
論文 参考訳(メタデータ) (2023-03-31T14:46:31Z) - Deep face recognition with clustering based domain adaptation [57.29464116557734]
そこで本研究では,ターゲットドメインとソースがクラスを共有しない顔認識タスクを対象とした,クラスタリングに基づく新しいドメイン適応手法を提案する。
本手法は,特徴領域をグローバルに整列させ,その一方で,対象クラスタを局所的に識別することで,識別対象特徴を効果的に学習する。
論文 参考訳(メタデータ) (2022-05-27T12:29:11Z) - Stochastic Mutual Information Gradient Estimation for Dimensionality
Reduction Networks [11.634729459989996]
エンドツーエンドのニューラルネットワークトレーニングアプローチとして,情報理論的特徴変換プロトコルを導入する。
本稿では,相互情報勾配の推定に基づく次元還元ネットワーク(MMINET)のトレーニング手法を提案する。
本手法を高次元生物データセットに適用して実験的に評価し,従来の特徴選択アルゴリズムと関連付ける。
論文 参考訳(メタデータ) (2021-05-01T08:20:04Z) - Towards Uncovering the Intrinsic Data Structures for Unsupervised Domain
Adaptation using Structurally Regularized Deep Clustering [119.88565565454378]
Unsupervised Domain Adapt (UDA) は、ターゲットドメイン上のラベルなしデータの予測を行う分類モデルを学ぶことである。
本稿では,対象データの正規化判別クラスタリングと生成クラスタリングを統合する構造的正規化深層クラスタリングのハイブリッドモデルを提案する。
提案するH-SRDCは, インダクティブ設定とトランスダクティブ設定の両方において, 既存の手法よりも優れている。
論文 参考訳(メタデータ) (2020-12-08T08:52:00Z) - Heterogeneous Network Representation Learning: A Unified Framework with
Survey and Benchmark [57.10850350508929]
我々は、異種ネットワーク埋め込み(HNE)に関する既存の研究を要約し、評価するための統一的なフレームワークを提供することを目指している。
最初のコントリビューションとして、既存のHNEアルゴリズムのメリットを体系的に分類し分析するための一般的なパラダイムを提供する。
第2のコントリビューションとして、さまざまなソースから、スケール、構造、属性/ラベルの可用性などに関するさまざまな特性を備えた4つのベンチマークデータセットを作成します。
第3のコントリビューションとして、13の人気のあるHNEアルゴリズムに対するフレンドリなインターフェースを作成し、複数のタスクと実験的な設定に対して、それらの全周比較を提供する。
論文 参考訳(メタデータ) (2020-04-01T03:42:11Z) - CycleCluster: Modernising Clustering Regularisation for Deep
Semi-Supervised Classification [0.0]
深層半教師付き分類のための新しいフレームワークであるCycleClusterを提案する。
我々のコア最適化は、グラフベースの擬似ラベルと共有深層ネットワークとともに、新たなクラスタリングベースの正規化によって推進されます。
論文 参考訳(メタデータ) (2020-01-15T13:34:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。