論文の概要: Learning Order Forest for Qualitative-Attribute Data Clustering
- arxiv url: http://arxiv.org/abs/2603.03387v1
- Date: Tue, 03 Mar 2026 07:49:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.027886
- Title: Learning Order Forest for Qualitative-Attribute Data Clustering
- Title(参考訳): 質的属性データクラスタリングのための学習順序フォレスト
- Authors: Mingjie Zhao, Sen Feng, Yiqun Zhang, Mengke Li, Yang Lu, Yiu-ming Cheung,
- Abstract要約: 本稿では,属性内定性値間の局所的な順序関係を柔軟に表現する木のような距離構造を探索する。
より適切な木構造とクラスタを反復的に獲得するために,共同学習機構を提案する。
実験により、共同学習は森林をクラスタリングタスクに適応させ、正確な結果を得ることを示した。
- 参考スコア(独自算出の注目度): 52.612779710298526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Clustering is a fundamental approach to understanding data patterns, wherein the intuitive Euclidean distance space is commonly adopted. However, this is not the case for implicit cluster distributions reflected by qualitative attribute values, e.g., the nominal values of attributes like symptoms, marital status, etc. This paper, therefore, discovered a tree-like distance structure to flexibly represent the local order relationship among intra-attribute qualitative values. That is, treating a value as the vertex of the tree allows to capture rich order relationships among the vertex value and the others. To obtain the trees in a clustering-friendly form, a joint learning mechanism is proposed to iteratively obtain more appropriate tree structures and clusters. It turns out that the latent distance space of the whole dataset can be well-represented by a forest consisting of the learned trees. Extensive experiments demonstrate that the joint learning adapts the forest to the clustering task to yield accurate results. Comparisons of 10 counterparts on 12 real benchmark datasets with significance tests verify the superiority of the proposed method.
- Abstract(参考訳): クラスタリングはデータパターンを理解するための基本的なアプローチであり、直感的なユークリッド距離空間が一般的である。
しかしこれは、質的な属性値、例えば、症状や婚姻状況などの属性の名目的な値によって反映される暗黙のクラスタ分布には当てはまらない。
そこで本研究では,属性内定性値間の局所的な順序関係を柔軟に表現する木のような距離構造を発見した。
つまり、ある値を木の頂点として扱うことで、頂点値とその他の間のリッチな順序関係をキャプチャすることができる。
クラスタリングに適した形態で木を得るために,より適切な木構造とクラスターを反復的に獲得するための共同学習機構を提案する。
その結果、データセット全体の潜伏距離空間は、学習した木々からなる森林によってうまく表現できることが判明した。
大規模な実験は、共同学習が森林をクラスタリングタスクに適応させ、正確な結果をもたらすことを示した。
提案手法の優位性を検証するため,12個の実ベンチマークデータセットに対する10個の比較試験を行った。
関連論文リスト
- Bridging the Semantic Gap for Categorical Data Clustering via Large Language Models [64.58262227709842]
ARISE(Attention-weighted Representation with Integrated Semantic Embeddings)が紹介される。
正確なクラスタリングのためにカテゴリデータのメトリック空間を補完するセマンティックアウェア表現を構築する。
8つのベンチマークデータセットの実験では、7つの代表的なデータセットよりも一貫した改善が示されている。
論文 参考訳(メタデータ) (2026-01-03T11:37:46Z) - Break the Tie: Learning Cluster-Customized Category Relationships for Categorical Data Clustering [51.11677202873771]
定性的な値を持つカテゴリ属性は、実際のデータセットのクラスタ分析においてユビキタスである。
数値属性のユークリッド距離とは異なり、分類属性はそれらの可能な値の明確な関係を欠いている。
本稿では属性カテゴリの固有関係関係を破り、様々なクラスタ分布を柔軟に明らかにするのに適したカスタマイズされた距離メトリクスを学習する。
論文 参考訳(メタデータ) (2025-11-12T06:57:24Z) - ReTreever: Tree-based Coarse-to-Fine Representations for Retrieval [64.44265315244579]
そこで本研究では,様々なレベルで参照文書を整理し,表現するためのツリーベース手法を提案する。
我々の手法はReTreeverと呼ばれ、クエリと参照ドキュメントが同様のツリーブランチに割り当てられるように、バイナリツリーの内部ノード毎のルーティング関数を共同で学習する。
我々の評価では、ReTreeverは一般的に完全な表現精度を保っている。
論文 参考訳(メタデータ) (2025-02-11T21:35:13Z) - Categorical Data Clustering via Value Order Estimated Distance Metric Learning [53.28598689867732]
本稿では,分類属性を直感的に表現する新しい順序距離計量学習手法を提案する。
新しい共同学習パラダイムが開発され、クラスタリングとオーダー距離メートル法学習の代替となる。
提案手法は分類および混合データセットのクラスタリング精度に優れる。
論文 参考訳(メタデータ) (2024-11-19T08:23:25Z) - Benchmarking Individual Tree Mapping with Sub-meter Imagery [6.907098367807166]
我々は,任意の物理的環境において,個々の木マッピングに適した評価フレームワークを提案する。
異なるアプローチと深いアーキテクチャをレビューし比較し、セグメンテーションと検出のよい妥協であることを示す新しい手法を実験的に導入する。
論文 参考訳(メタデータ) (2023-11-14T08:21:36Z) - Tree Variational Autoencoders [5.992683455757179]
本稿では,潜在変数上の柔軟木に基づく後続分布を学習する階層的階層クラスタリングモデルを提案する。
TreeVAEは、本質的な特徴に従ってサンプルを階層的に分割し、データ内の隠れた構造に光を遮る。
論文 参考訳(メタデータ) (2023-06-15T09:25:04Z) - Hierarchical clustering with dot products recovers hidden tree structure [53.68551192799585]
本稿では,階層構造の回復に着目した凝集クラスタリングアルゴリズムの新しい視点を提案する。
クラスタを最大平均点積でマージし、例えば最小距離やクラスタ内分散でマージしないような、標準的なアルゴリズムの単純な変種を推奨する。
このアルゴリズムにより得られた木は、汎用確率的グラフィカルモデルの下で、データ中の生成的階層構造をボナフェイド推定することを示した。
論文 参考訳(メタデータ) (2023-05-24T11:05:12Z) - Comparative Study Between Distance Measures On Supervised Optimum-Path
Forest Classification [0.0]
Optimum-Path Forest (OPF) はグラフベースの方法論と距離測度を使ってノード間の弧を作り、そのため木の集合を作る。
本研究は,オプティカム・パス林の森林分類に応用された広範囲な距離測定に関する比較研究を提案する。
論文 参考訳(メタデータ) (2022-02-08T13:34:09Z) - Interactive Steering of Hierarchical Clustering [30.371250297444703]
本稿では,公開知識(ウィキペディアなど)とユーザからのプライベート知識の両方を活用することで,制約付き階層的クラスタリングを視覚的に監視するインタラクティブなステアリング手法を提案する。
1)知識(知識駆動)と本質的なデータ分散(データ駆動)を用いて階層的クラスタリングの制約を自動的に構築する。
階層的クラスタリングの結果を明確に伝達するために,不確実性を考慮したツリー可視化が開発され,最も不確実なサブ階層を素早く見つけることができる。
論文 参考訳(メタデータ) (2020-09-21T05:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。