Fugu-MT 論文翻訳(概要): Natural Language-Based Synthetic Data Generation for Cluster Analysis

論文の概要: Natural Language-Based Synthetic Data Generation for Cluster Analysis

arxiv url: http://arxiv.org/abs/2303.14301v4
Date: Mon, 17 Feb 2025 20:52:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-19 20:12:08.37056
Title: Natural Language-Based Synthetic Data Generation for Cluster Analysis
Title（参考訳）: クラスタ分析のための自然言語に基づく合成データ生成
Authors: Michael J. Zellinger, Peter Bühlmann,
Abstract要約: クラスタ分析は、異なるアルゴリズムの評価と比較に有効なベンチマークに依存している。本研究では,高レベルシナリオの直接仕様に基づく合成データ生成を提案する。私たちのオープンソースのPythonパッケージは、このワークフローを実装しています。
参考スコア（独自算出の注目度）: 4.13592995550836
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Cluster analysis relies on effective benchmarks for evaluating and comparing different algorithms. Simulation studies on synthetic data are popular because important features of the data sets, such as the overlap between clusters, or the variation in cluster shapes, can be effectively varied. Unfortunately, creating evaluation scenarios is often laborious, as practitioners must translate higher-level scenario descriptions like "clusters with very different shapes" into lower-level geometric parameters such as cluster centers, covariance matrices, etc. To make benchmarks more convenient and informative, we propose synthetic data generation based on direct specification of high-level scenarios, either through verbal descriptions or high-level geometric parameters. Our open-source Python package repliclust implements this workflow, making it easy to set up interpretable and reproducible benchmarks for cluster analysis. A demo of data generation from verbal inputs is available at https://demo.repliclust.org.
Abstract（参考訳）: クラスタ分析は、異なるアルゴリズムの評価と比較に有効なベンチマークに依存している。クラスタ間の重なり合いやクラスタ形状の変化など,データセットの重要な特徴を効果的に変化させることができるため,合成データのシミュレーション研究が一般的である。残念ながら、評価シナリオの作成は、"非常に異なる形状のクラスタ"のような高レベルのシナリオ記述を、クラスタセンタや共分散行列などの低レベルのパラメータに変換する必要があるため、しばしば手間がかかる。ベンチマークをより便利かつ有益なものにするために,言語記述や高次幾何パラメータを用いて,高次シナリオの直接仕様に基づく合成データ生成を提案する。当社のオープンソースのPythonパッケージ Reliclustはこのワークフローを実装しており、クラスタ分析のための解釈可能な、再現可能なベンチマークを簡単に設定できます。音声入力からのデータ生成のデモはhttps://demo.repliclust.orgで公開されている。

関連論文リスト

Bridging the Semantic Gap for Categorical Data Clustering via Large Language Models [64.58262227709842]
ARISE(Attention-weighted Representation with Integrated Semantic Embeddings)が紹介される。正確なクラスタリングのためにカテゴリデータのメトリック空間を補完するセマンティックアウェア表現を構築する。 8つのベンチマークデータセットの実験では、7つの代表的なデータセットよりも一貫した改善が示されている。
論文参考訳（メタデータ） (2026-01-03T11:37:46Z)
Clustering by Attention: Leveraging Prior Fitted Transformers for Data Partitioning [3.4530027457862005]
メタラーニングに基づく新しいクラスタリング手法を提案する。我々は,クラスタリングを行うために事前学習したPFN(Predior-Data Fitted Transformer Network)を用いている。我々の手法は最先端のクラスタリング技術よりも優れていることを示す。
論文参考訳（メタデータ） (2025-07-27T17:53:19Z)
An Enhanced Model-based Approach for Short Text Clustering [58.60681789677676]
Twitter、Google+、Facebookなどのソーシャルメディアの人気が高まり、短いテキストのクラスタリングがますます重要になっている。既存の手法は、トピックモデルに基づくアプローチと深層表現学習に基づくアプローチの2つのパラダイムに大別することができる。短文の空間性と高次元性を効果的に扱えるDirichlet Multinomial Mixture Model (GSDMM) のギブスサンプリングアルゴリズムを提案する。さらなる改良を保証しているGSDMMのいくつかの側面に基づいて,さらなる性能向上を目的とした改良されたアプローチであるGSDMM+を提案する。
論文参考訳（メタデータ） (2025-07-18T10:07:42Z)
Categorical Data Clustering via Value Order Estimated Distance Metric Learning [53.28598689867732]
本稿では,分類属性を直感的に表現する新しい順序距離計量学習手法を提案する。新しい共同学習パラダイムが開発され、クラスタリングとオーダー距離メートル法学習の代替となる。提案手法は分類および混合データセットのクラスタリング精度に優れる。
論文参考訳（メタデータ） (2024-11-19T08:23:25Z)
Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文参考訳（メタデータ） (2024-10-29T04:14:32Z)
EBES: Easy Benchmarking for Event Sequences [17.277513178760348]
イベントシーケンスは、ヘルスケア、ファイナンス、ユーザインタラクションログなど、さまざまな現実世界のドメインにおける一般的なデータ構造である。時間データモデリング技術の進歩にもかかわらず、イベントシーケンスのパフォーマンスを評価するための標準ベンチマークは存在しない。標準化された評価シナリオとプロトコルを備えた総合的なベンチマークツールであるEBESを紹介する。
論文参考訳（メタデータ） (2024-10-04T13:03:43Z)
Explaining Datasets in Words: Statistical Models with Natural Language Parameters [66.69456696878842]
本稿では, クラスタリング, 時系列, 分類モデルなど, 自然言語の述語によってパラメータ化される統計モデル群を紹介する。当社のフレームワークは、ユーザチャット対話の分類、時間の経過とともにどのように進化するかの特徴付け、一方の言語モデルが他方よりも優れているカテゴリを見つけることなど、幅広い問題に適用しています。
論文参考訳（メタデータ） (2024-09-13T01:40:20Z)
SynthesizRR: Generating Diverse Datasets with Retrieval Augmentation [55.2480439325792]
トピック分類,感情分析,トーン検出,ユーモアの6つのデータセットの合成について検討した。その結果,SynthesizRRは語彙や意味の多様性,人文との類似性,蒸留性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-05-16T12:22:41Z)
Spectral Clustering of Categorical and Mixed-type Data via Extra Graph Nodes [0.0]
本稿では,数値情報と分類情報の両方をスペクトルクラスタリングアルゴリズムに組み込むための,より自然な方法について検討する。データの属する可能性のある異なるカテゴリに対応する追加ノードの追加を提案し、それが解釈可能なクラスタリング対象関数に繋がることを示す。この単純なフレームワークは、分類のみのデータに対する線形時間スペクトルクラスタリングアルゴリズムに繋がることを示す。
論文参考訳（メタデータ） (2024-03-08T20:49:49Z)
Interpretable Deep Clustering for Tabular Data [7.972599673048582]
クラスタリングは、データ分析で広く使われている基本的な学習タスクである。本稿では,インスタンスとクラスタレベルでの解釈可能なクラスタ割り当てを予測する,新たなディープラーニングフレームワークを提案する。提案手法は,生物,テキスト,画像,物理データセットのクラスタ割り当てを確実に予測できることを示す。
論文参考訳（メタデータ） (2023-06-07T21:08:09Z)
infoVerse: A Universal Framework for Dataset Characterization with Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。 infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文参考訳（メタデータ） (2023-05-30T18:12:48Z)
Generating Multidimensional Clusters With Support Lines [0.0]
合成データ生成のためのモジュラープロシージャであるClugenを提案する。 Clukenはオープンソースで、包括的なユニットテストとドキュメント化が可能である。クラスタリングアルゴリズムの評価にはClugenが適していることを示す。
論文参考訳（メタデータ） (2023-01-24T22:08:24Z)
Which is the best model for my data? [0.0]
提案されたメタ学習アプローチは、機械学習に依存し、4つの主要なステップを含む。本稿では,正と負の測度を含む集約測度値において,情報消去の問題に対処する62のメタ特徴の集合について述べる。我々のメタ学習アプローチは、合成データセットの91%と実世界のデータセットの87%に対して、最適なモデルを正確に予測できることを示します。
論文参考訳（メタデータ） (2022-10-26T13:15:43Z)
Detection and Evaluation of Clusters within Sequential Data [58.720142291102135]
Block Markov Chainsのクラスタリングアルゴリズムは理論的最適性を保証する。特に、私たちのシーケンシャルデータは、ヒトのDNA、テキスト、動物運動データ、金融市場から派生しています。ブロックマルコフ連鎖モデルの仮定は、実際に探索データ解析において有意義な洞察を得られることが判明した。
論文参考訳（メタデータ） (2022-10-04T15:22:39Z)
A framework for benchmarking clustering algorithms [2.900810893770134]
クラスタリングアルゴリズムは、さまざまなベンチマーク問題でテストできる。多くの研究論文や大学院論文では、少数のデータセットしか考慮していない。我々はクラスタリングアルゴリズムをテストする一貫した方法論を導入することを目的としたフレームワークを開発した。
論文参考訳（メタデータ） (2022-09-20T06:10:41Z)
Towards Automated Imbalanced Learning with Deep Hierarchical Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文参考訳（メタデータ） (2022-08-26T04:28:01Z)
TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文参考訳（メタデータ） (2022-08-16T20:46:08Z)
GEMv2: Multilingual NLG Benchmarking in a Single Line of Code [161.1761414080574]
Generation, Evaluation, and Metrics Benchmarkは、データセット、モデル、メトリック開発者のためのモジュラーインフラストラクチャを提供する。 GEMv2は51言語で40のドキュメントデータセットをサポートする。すべてのデータセットのモデルはオンラインで評価でき、インタラクティブなデータカード作成とレンダリングツールによって、生きたベンチマークに新しいデータセットを簡単に追加できます。
論文参考訳（メタデータ） (2022-06-22T17:52:30Z)
HyperImpute: Generalized Iterative Imputation with Automatic Model Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文参考訳（メタデータ） (2022-06-15T19:10:35Z)
Clustering Plotted Data by Image Segmentation [12.443102864446223]
クラスタリングアルゴリズムは、ラベルなしデータのパターンを検出する主要な分析手法の1つである。本稿では,人間のクラスタリングデータに着想を得た,2次元空間におけるクラスタリングポイントの全く異なる方法を提案する。私たちのアプローチであるVisual Clusteringは、従来のクラスタリングアルゴリズムよりもいくつかのアドバンテージを持っています。
論文参考訳（メタデータ） (2021-10-06T06:19:30Z)
Bellamy: Reusing Performance Models for Distributed Dataflow Jobs Across Contexts [52.9168275057997]
本稿では、スケールアウト、データセットサイズ、ランタイムをデータフロージョブの記述的特性と組み合わせた新しいモデリング手法であるBelamyを提案する。我々は,異なる環境で実行される各種データフロージョブの実行データからなる2つの公開データセットに対するアプローチを評価した。
論文参考訳（メタデータ） (2021-07-29T11:57:38Z)
Synthetic Benchmarks for Scientific Research in Explainable Machine Learning [14.172740234933215]
我々はXAI-Benchをリリースした。XAI-Benchは、合成データセットと、特徴属性アルゴリズムをベンチマークするためのライブラリである。実世界のデータセットとは異なり、合成データセットは条件付き期待値の効率的な計算を可能にする。いくつかの評価指標にまたがって一般的な説明可能性手法をベンチマークし、一般的な説明者にとっての障害モードを特定することで、ライブラリのパワーを実証する。
論文参考訳（メタデータ） (2021-06-23T17:10:21Z)
Multi-layer Optimizations for End-to-End Data Analytics [71.05611866288196]
代替アプローチを実現するフレームワークであるIFAQ(Iterative Functional Aggregate Queries)を紹介する。 IFAQは、特徴抽出クエリと学習タスクを、IFAQのドメイン固有言語で与えられた1つのプログラムとして扱う。 IFAQ の Scala 実装が mlpack,Scikit,特殊化を数桁で上回り,線形回帰木モデルや回帰木モデルを複数の関係データセット上で処理可能であることを示す。
論文参考訳（メタデータ） (2020-01-10T16:14:44Z)
Adaptive Discrete Smoothing for High-Dimensional and Nonlinear Panel Data [4.550919471480445]
我々は高次元および非線形パネルデータモデルのためのデータ駆動平滑化手法を開発した。重みはデータ駆動方式で決定され、対応する関数間の類似性に依存する。我々は,推定器を用いて予測を大幅に改善できることを示すシミュレーション研究を行った。
論文参考訳（メタデータ） (2019-12-30T09:50:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。