論文の概要: Human-aligned Quantification of Numerical Data
- arxiv url: http://arxiv.org/abs/2511.15723v1
- Date: Sat, 15 Nov 2025 04:44:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.288301
- Title: Human-aligned Quantification of Numerical Data
- Title(参考訳): 数値データのヒューマンアライン定量化
- Authors: Anton Kolonin,
- Abstract要約: 数値データを定量化するための情報圧縮とシルエット係数に基づいて,メトリクスの適用性を評価する。
以上の結果から,数値データを別カテゴリに分類する能力は,0.65以上のシルエット係数と0.5以下のディップテストに関連があることが示唆された。
- 参考スコア(独自算出の注目度): 0.152292571922932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantifying numerical data involves addressing two key challenges: first, determining whether the data can be naturally quantified, and second, identifying the numerical intervals or ranges of values that correspond to specific value classes, referred to as "quantums," which represent statistically meaningful states. If such quantification is feasible, continuous streams of numerical data can be transformed into sequences of "symbols" that reflect the states of the system described by the measured parameter. People often perform this task intuitively, relying on common sense or practical experience, while information theory and computer science offer computable metrics for this purpose. In this study, we assess the applicability of metrics based on information compression and the Silhouette coefficient for quantifying numerical data. We also investigate the extent to which these metrics correlate with one another and with what is commonly referred to as "human intuition." Our findings suggest that the ability to classify numeric data values into distinct categories is associated with a Silhouette coefficient above 0.65 and a Dip Test below 0.5; otherwise, the data can be treated as following a unimodal normal distribution. Furthermore, when quantification is possible, the Silhouette coefficient appears to align more closely with human intuition than the "normalized centroid distance" method derived from information compression perspective.
- Abstract(参考訳): まず、データが自然に定量化できるかどうかを判断し、次に、統計的に意味のある状態を表す「量子」と呼ばれる特定の値クラスに対応する値の数値間隔や範囲を特定する。
このような定量化が実現可能であれば、数値データの連続ストリームは、測定パラメータによって記述されたシステムの状態を反映した「シンボル」のシーケンスに変換することができる。
情報理論と計算機科学はこの目的のために計算可能なメトリクスを提供するのに対し、人々はよく常識や実践的な経験に頼って直感的にこのタスクを実行する。
本研究では,数値データの定量化のための情報圧縮とシルエット係数に基づいて,メトリクスの適用性を評価する。
また、これらの指標が相互にどのように関連しているか、また一般に「人間の直観」と呼ばれるものとの関係についても検討する。
以上の結果から, 数値値の分類は0.65以上のシルエット係数, 0.5以下のディップテストと関係していることが明らかとなった。
さらに、定量化が可能となると、情報圧縮の観点から導かれた「正規化セントロイド距離」法よりも、シルエット係数は人間の直感とより密接に一致しているように見える。
関連論文リスト
- Categorical Data Clustering via Value Order Estimated Distance Metric Learning [53.28598689867732]
本稿では,分類属性を直感的に表現する新しい順序距離計量学習手法を提案する。
新しい共同学習パラダイムが開発され、クラスタリングとオーダー距離メートル法学習の代替となる。
提案手法は分類および混合データセットのクラスタリング精度に優れる。
論文 参考訳(メタデータ) (2024-11-19T08:23:25Z) - Unsupervised detection of semantic correlations in big data [47.201377047286215]
本稿では,2進数として表される高次元データにおける意味的相関を検出する手法を提案する。
本研究では,データ記述に必要な独立座標の最小個数を定量化するデータセットの2値固有次元を推定する。
提案アルゴリズムは, いわゆる次元の呪いとは無関係であり, ビッグデータ解析に利用することができる。
論文 参考訳(メタデータ) (2024-11-04T14:37:07Z) - Robust estimation of the intrinsic dimension of data sets with quantum cognition machine learning [31.347602507204847]
本稿では,量子認知機械学習に基づく新しいデータ表現法を提案し,それを多様体学習に適用する。
我々は各点を量子状態として表現し、点の局所的性質とデータ全体との関係を符号化する。
量子幾何学のアイデアに触発され、量子状態から量子計量を備えた点雲を構築する。
提案手法は,このスペクトルギャップの検出に基づく。
論文 参考訳(メタデータ) (2024-09-19T14:24:35Z) - Postselection-free learning of measurement-induced quantum dynamics [0.0]
状態の計測後のアンサンブルの性質を推測するために,汎用的なスキームを導入する。
即時的な応用として,実験における量子状態設計の出現を検証するために本手法が有用であることを示す。
論文 参考訳(メタデータ) (2023-10-06T11:06:06Z) - Enriching Disentanglement: From Logical Definitions to Quantitative Metrics [59.12308034729482]
複雑なデータにおける説明的要素を遠ざけることは、データ効率の表現学習にとって有望なアプローチである。
論理的定義と量的指標の関連性を確立し, 理論的に根ざした絡み合いの指標を導出する。
本研究では,非交叉表現の異なる側面を分離することにより,提案手法の有効性を実証的に実証する。
論文 参考訳(メタデータ) (2023-05-19T08:22:23Z) - Learning Likelihood Ratios with Neural Network Classifiers [0.12277343096128711]
確率比の近似は、ニューラルネットワークベースの分類器の巧妙なパラメトリゼーションを用いて計算することができる。
本稿では、いくつかの共通損失関数の性能と分類器出力のパラメトリゼーションを詳述した一連の実証研究について述べる。
論文 参考訳(メタデータ) (2023-05-17T18:11:38Z) - Gacs-Korner Common Information Variational Autoencoder [102.89011295243334]
本稿では,2つの変数間で共有される情報の定量化と分離を可能にする共通情報の概念を提案する。
画像やビデオなどの高次元データでも意味論的に意味のある共通要素や特徴要因を学習できることを実証する。
論文 参考訳(メタデータ) (2022-05-24T17:47:26Z) - On the relation between statistical learning and perceptual distances [61.25815733012866]
近辺画像の知覚感度は近辺画像の確率と相関することを示す。
また、オートエンコーダによって誘導される距離と、それらの訓練に使用されるデータの確率分布との関係についても検討する。
論文 参考訳(メタデータ) (2021-06-08T14:56:56Z) - Ranking the information content of distance measures [61.754016309475745]
2つの異なる距離測度を用いて保持する相対的情報を評価する統計的テストを導入する。
これにより、候補者のプールから最も情報に富んだ距離を測定することができる。
論文 参考訳(メタデータ) (2021-04-30T15:57:57Z) - Posterior Ratio Estimation of Latent Variables [14.619879849533662]
いくつかのアプリケーションでは、観測から無視される確率変数の分布を比較したい。
潜在変数の2つの後続確率密度関数の比を推定する問題について検討する。
論文 参考訳(メタデータ) (2020-02-15T16:46:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。