Fugu-MT 論文翻訳(概要): ERASMO: Leveraging Large Language Models for Enhanced Clustering Segmentation

論文の概要: ERASMO: Leveraging Large Language Models for Enhanced Clustering Segmentation

arxiv url: http://arxiv.org/abs/2410.03738v1
Date: Tue, 1 Oct 2024 00:37:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-02 20:18:28.503885
Title: ERASMO: Leveraging Large Language Models for Enhanced Clustering Segmentation
Title（参考訳）: ERASMO:クラスタリングセグメンテーション強化のための大規模言語モデルを活用する
Authors: Fillipe dos Santos Silva, Gabriel Kenzo Kakimoto, Julio Cesar dos Reis, Marcelo S. Reis,
Abstract要約: クラスタ分析は、マーケティングにおける顧客セグメンテーションなど、さまざまなドメインやアプリケーションにおいて重要な役割を果たす。本研究では,テキストエンコードされたデータに基づいて事前学習した言語モデルを微調整するフレームワークであるERASMOを紹介する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Cluster analysis plays a crucial role in various domains and applications, such as customer segmentation in marketing. These contexts often involve multimodal data, including both tabular and textual datasets, making it challenging to represent hidden patterns for obtaining meaningful clusters. This study introduces ERASMO, a framework designed to fine-tune a pretrained language model on textually encoded tabular data and generate embeddings from the fine-tuned model. ERASMO employs a textual converter to transform tabular data into a textual format, enabling the language model to process and understand the data more effectively. Additionally, ERASMO produces contextually rich and structurally representative embeddings through techniques such as random feature sequence shuffling and number verbalization. Extensive experimental evaluations were conducted using multiple datasets and baseline approaches. Our results demonstrate that ERASMO fully leverages the specific context of each tabular dataset, leading to more precise and nuanced embeddings for accurate clustering. This approach enhances clustering performance by capturing complex relationship patterns within diverse tabular data.
Abstract（参考訳）: クラスタ分析は、マーケティングにおける顧客セグメンテーションなど、さまざまなドメインやアプリケーションにおいて重要な役割を果たす。これらのコンテキストは、表とテキストの両方のデータセットを含むマルチモーダルデータを含むことが多いため、意味のあるクラスタを取得するために隠されたパターンを表現することは困難である。本研究では,テキストで符号化された表形式データ上に事前学習した言語モデルを微調整し,微調整されたモデルから埋め込みを生成するためのフレームワークであるERASMOを紹介する。 ERASMOは、表形式のデータをテキスト形式に変換するためにテキスト変換器を使用し、言語モデルがより効率的にデータを処理し理解できるようにする。さらに、ERASMOはランダムな特徴列シャッフルや数動詞化といった手法により、文脈的にリッチで構造的に代表的な埋め込みを生成する。複数のデータセットとベースラインアプローチを用いて実験を行った。その結果,ERASMOは各表データセットの特定のコンテキストを完全に活用し,正確なクラスタリングのためのより正確でニュアンスな埋め込みを実現していることがわかった。このアプローチは、多様な表データ内の複雑な関係パターンをキャプチャすることでクラスタリング性能を向上させる。

関連論文リスト

TabDLM: Free-Form Tabular Data Generation via Joint Numerical-Language Diffusion [45.45604062258755]
実世界のデータセットは、構造化された数値と分類属性とともに、自由形式のテキストフィールドを徐々に含んでいる。既存のアプローチは拡散法とLLM法という2つのカテゴリに分類される。連立数値言語拡散モデルを用いた自由形式の表形式データ生成のための統合フレームワークであるTabDLMを提案する。
論文参考訳（メタデータ） (2026-02-26T03:41:49Z)
Negative Matters: Multi-Granularity Hard-Negative Synthesis and Anchor-Token-Aware Pooling for Enhanced Text Embeddings [25.565372681837697]
クエリに類似するレベルが異なる多様な負のサンプルを生成するために,マルチグラニュラリティ・ハード負(MGH)合成フレームワークを導入する。また,Anchor Token Aware(ATA)プーリング手法を提案する。
論文参考訳（メタデータ） (2025-08-31T13:24:48Z)
Improving Large Vision-Language Models' Understanding for Field Data [62.917026891829025]
本研究では、大規模ビジョン言語モデルのフィールドデータ理解を改善するためのフレームワークであるFieldLVLMを紹介する。 FieldLVLMは、フィールド対応言語生成戦略とデータ圧縮マルチモーダルモデルチューニングの2つの主要コンポーネントから構成される。新たに提案されたベンチマークデータセットの実験結果から、フィールドLVLMは、科学的なフィールドデータを含むタスクにおいて、既存の手法を著しく上回っていることが示された。
論文参考訳（メタデータ） (2025-07-24T11:28:53Z)
Make Still Further Progress: Chain of Thoughts for Tabular Data Leaderboard [27.224577475861214]
機械学習の基本的なデータフォーマットであるタブラルデータは、競争や現実世界のアプリケーションで主に利用されている。本研究では,大規模言語モデルを活用したテキスト内アンサンブルフレームワークを提案する。提案手法は,各テストインスタンスの周囲のコンテキストを,その近傍と外部モデルのプールからの予測を用いて構築する。
論文参考訳（メタデータ） (2025-05-19T17:52:58Z)
Representation Learning for Tabular Data: A Comprehensive Survey [23.606506938919605]
行と列として構造化されたタブラルデータは、機械学習の分類と回帰アプリケーションにおいて最も一般的なデータタイプの一つである。ディープニューラルネットワーク(DNN)は、最近、表現学習の能力を通じて有望な結果を実証した。既存の手法を一般化能力に応じて3つの主要なカテゴリに分類する。
論文参考訳（メタデータ） (2025-04-17T17:58:23Z)
GridMind: A Multi-Agent NLP Framework for Unified, Cross-Modal NFL Data Insights [0.0]
本稿では,Retrieval-Augmented Generation (RAG) と大規模言語モデル (LLM) を通じて構造化,半構造化,非構造化データを統一するフレームワークであるGridMindを紹介する。このアプローチはマルチモーダル表現学習の進化する分野と一致する。
論文参考訳（メタデータ） (2025-03-24T18:33:36Z)
TabGLM: Tabular Graph Language Model for Learning Transferable Representations Through Multi-Modal Consistency Minimization [2.1067477213933503]
TabGLM (Tabular Graph Language Model) はテーブルの構造情報と意味情報の両方をモデル化する新しいマルチモーダルアーキテクチャである。テーブルの各行を完全に連結されたグラフとシリアライズされたテキストに変換し、それぞれグラフニューラルネットワーク(GNN)とテキストエンコーダを使って符号化する。 25のベンチマークデータセットに対する評価は、大幅なパフォーマンス向上を示している。
論文参考訳（メタデータ） (2025-02-26T05:32:45Z)
Evaluating LLM Prompts for Data Augmentation in Multi-label Classification of Ecological Texts [1.565361244756411]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて重要な役割を果たす。本研究では,ロシアのソーシャルメディアにおけるグリーンプラクティスの言及を検出するために,プロンプトベースのデータ拡張を適用した。
論文参考訳（メタデータ） (2024-11-22T12:37:41Z)
A Survey on Deep Tabular Learning [0.0]
タブラルデータは、その不均一な性質と空間構造が欠如していることから、深層学習の独特な課題を提示する。本調査では,早期完全接続ネットワーク(FCN)から,TabNet,SAINT,TabTranSELU,MambaNetといった先進アーキテクチャに至るまで,タブラルデータのディープラーニングモデルの進化を概観する。
論文参考訳（メタデータ） (2024-10-15T20:08:08Z)
BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。 BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。 BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文参考訳（メタデータ） (2024-10-01T15:11:24Z)
Knowledge-Aware Reasoning over Multimodal Semi-structured Tables [85.24395216111462]
本研究では、現在のAIモデルがマルチモーダルな構造化データに基づいて知識を考慮した推論を行うことができるかどうかを検討する。この目的のために設計された新しいデータセットであるMMTabQAを紹介する。我々の実験は、複数のテキストと画像の入力を効果的に統合し解釈する上で、現在のAIモデルに対する重大な課題を浮き彫りにしている。
論文参考訳（メタデータ） (2024-08-25T15:17:43Z)
Text Clustering with LLM Embeddings [0.0]
テキストクラスタリングの有効性は、テキスト埋め込みとクラスタリングアルゴリズムの選択に大きく依存する。大規模言語モデル(LLM)の最近の進歩は、このタスクを強化する可能性を秘めている。 LLM埋め込みは構造化言語の微妙さを捉えるのに優れていることを示す。
論文参考訳（メタデータ） (2024-03-22T11:08:48Z)
FLIP: Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction [49.510163437116645]
クリックスルーレート(CTR)予測は、パーソナライズされたオンラインサービスにおいてコア機能モジュールとして機能する。 CTR予測のための従来のIDベースのモデルは、表形式の1ホットエンコードされたID特徴を入力として取る。事前訓練された言語モデル(PLM)は、テキストのモダリティの文を入力として取る別のパラダイムを生み出した。本稿では,CTR予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
論文参考訳（メタデータ） (2023-10-30T11:25:03Z)
Improving Compositional Generalization with Self-Training for Data-to-Text Generation [36.973617793800315]
データ・テキスト・タスクにおける現在の生成モデルの合成一般化について検討する。構成的気象データセットの構造変化をシミュレートすることにより、T5モデルは目に見えない構造に一般化できないことを示す。擬似応答選択のための細調整BLEURTを用いた自己学習に基づく手法を提案する。
論文参考訳（メタデータ） (2021-10-16T04:26:56Z)
Data-to-text Generation with Macro Planning [61.265321323312286]
本稿では,マクロ計画段階のニューラルモデルと,従来の手法を連想させる生成段階を提案する。提案手法は, 自動評価と人的評価の両面で, 競争ベースラインを上回っている。
論文参考訳（メタデータ） (2021-02-04T16:32:57Z)
SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文参考訳（メタデータ） (2021-01-02T01:15:57Z)
GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文参考訳（メタデータ） (2020-09-29T08:17:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。