論文の概要: ERASMO: Leveraging Large Language Models for Enhanced Clustering Segmentation
- arxiv url: http://arxiv.org/abs/2410.03738v1
- Date: Tue, 01 Oct 2024 00:37:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 18:01:41.508690
- Title: ERASMO: Leveraging Large Language Models for Enhanced Clustering Segmentation
- Title(参考訳): ERASMO:クラスタリングセグメンテーション強化のための大規模言語モデルを活用する
- Authors: Fillipe dos Santos Silva, Gabriel Kenzo Kakimoto, Julio Cesar dos Reis, Marcelo S. Reis,
- Abstract要約: クラスタ分析は、マーケティングにおける顧客セグメンテーションなど、さまざまなドメインやアプリケーションにおいて重要な役割を果たす。
本研究では,テキストエンコードされたデータに基づいて事前学習した言語モデルを微調整するフレームワークであるERASMOを紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Cluster analysis plays a crucial role in various domains and applications, such as customer segmentation in marketing. These contexts often involve multimodal data, including both tabular and textual datasets, making it challenging to represent hidden patterns for obtaining meaningful clusters. This study introduces ERASMO, a framework designed to fine-tune a pretrained language model on textually encoded tabular data and generate embeddings from the fine-tuned model. ERASMO employs a textual converter to transform tabular data into a textual format, enabling the language model to process and understand the data more effectively. Additionally, ERASMO produces contextually rich and structurally representative embeddings through techniques such as random feature sequence shuffling and number verbalization. Extensive experimental evaluations were conducted using multiple datasets and baseline approaches. Our results demonstrate that ERASMO fully leverages the specific context of each tabular dataset, leading to more precise and nuanced embeddings for accurate clustering. This approach enhances clustering performance by capturing complex relationship patterns within diverse tabular data.
- Abstract(参考訳): クラスタ分析は、マーケティングにおける顧客セグメンテーションなど、さまざまなドメインやアプリケーションにおいて重要な役割を果たす。
これらのコンテキストは、表とテキストの両方のデータセットを含むマルチモーダルデータを含むことが多いため、意味のあるクラスタを取得するために隠されたパターンを表現することは困難である。
本研究では,テキストで符号化された表形式データ上に事前学習した言語モデルを微調整し,微調整されたモデルから埋め込みを生成するためのフレームワークであるERASMOを紹介する。
ERASMOは、表形式のデータをテキスト形式に変換するためにテキスト変換器を使用し、言語モデルがより効率的にデータを処理し理解できるようにする。
さらに、ERASMOはランダムな特徴列シャッフルや数動詞化といった手法により、文脈的にリッチで構造的に代表的な埋め込みを生成する。
複数のデータセットとベースラインアプローチを用いて実験を行った。
その結果,ERASMOは各表データセットの特定のコンテキストを完全に活用し,正確なクラスタリングのためのより正確でニュアンスな埋め込みを実現していることがわかった。
このアプローチは、多様な表データ内の複雑な関係パターンをキャプチャすることでクラスタリング性能を向上させる。
関連論文リスト
- Text Clustering with LLM Embeddings [0.0]
テキストクラスタリングの有効性は、テキスト埋め込みとクラスタリングアルゴリズムの選択に大きく依存する。
大規模言語モデル(LLM)の最近の進歩は、このタスクを強化する可能性を秘めている。
LLM埋め込みは構造化言語の微妙さを捉えるのに優れていることを示す。
論文 参考訳(メタデータ) (2024-03-22T11:08:48Z) - Visual Analytics for Fine-grained Text Classification Models and Datasets [3.6873612681664016]
SemLaは、きめ細かいテキスト分類に適した、新しいビジュアル分析システムである。
本稿では,SemLaにおける反復設計研究と結果のイノベーションについて述べる。
論文 参考訳(メタデータ) (2024-03-21T17:26:28Z) - FLIP: Towards Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction [49.510163437116645]
本稿では,クリックスルー率(CTR)予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
具体的には、1つのモダリティ(トークンや特徴)のマスキングされたデータは、他のモダリティの助けを借りて回復し、特徴レベルの相互作用とアライメントを確立する必要がある。
3つの実世界のデータセットの実験により、FLIPはSOTAベースラインより優れており、様々なIDベースのモデルやPLMと高い互換性を持つことが示された。
論文 参考訳(メタデータ) (2023-10-30T11:25:03Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Optimization Techniques for Unsupervised Complex Table Reasoning via Self-Training Framework [5.351873055148804]
自己学習フレームワークは複雑な論理を持つ多様な合成データを生成する。
我々は「テーブル・テキスト・マニピュレータ(Table-Text Manipulator)」を用いて、共同テーブル・テキスト推論シナリオの処理を最適化する。
UCTRSTは、異なるタスクやドメインにおける教師付きモデルパフォーマンスの90%以上を達成する。
論文 参考訳(メタデータ) (2022-12-20T09:15:03Z) - Hierarchical Cross-Modality Semantic Correlation Learning Model for
Multimodal Summarization [4.714335699701277]
マルチモーダル出力(MSMO)によるマルチモーダル要約は、テキストコンテンツとビジュアルコンテンツの両方で要約を生成する。
従来のMSMOメソッドは、データ全体の表現を学習することで、異なるデータモダリティを区別できない方法で処理する。
マルチモーダルデータに存在するモーダル内およびモーダル間相関を学習するための階層的相互モーダル意味相関学習モデル(HCSCL)を提案する。
論文 参考訳(メタデータ) (2021-12-16T01:46:30Z) - Improving Compositional Generalization with Self-Training for
Data-to-Text Generation [36.973617793800315]
データ・テキスト・タスクにおける現在の生成モデルの合成一般化について検討する。
構成的気象データセットの構造変化をシミュレートすることにより、T5モデルは目に見えない構造に一般化できないことを示す。
擬似応答選択のための細調整BLEURTを用いた自己学習に基づく手法を提案する。
論文 参考訳(メタデータ) (2021-10-16T04:26:56Z) - Learning to Synthesize Data for Semantic Parsing [57.190817162674875]
本稿では,プログラムの構成をモデル化し,プログラムを発話にマップする生成モデルを提案する。
PCFGと事前学習されたBARTの簡易性により,既存のデータから効率的に生成モデルを学習することができる。
GeoQuery と Spider の標準ベンチマークで解析する text-to-Query の in-domain と out-of-domain の両方で、この手法を評価します。
論文 参考訳(メタデータ) (2021-04-12T21:24:02Z) - Data-to-text Generation with Macro Planning [61.265321323312286]
本稿では,マクロ計画段階のニューラルモデルと,従来の手法を連想させる生成段階を提案する。
提案手法は, 自動評価と人的評価の両面で, 競争ベースラインを上回っている。
論文 参考訳(メタデータ) (2021-02-04T16:32:57Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。