論文の概要: CTG-KrEW: Generating Synthetic Structured Contextually Correlated Content by Conditional Tabular GAN with K-Means Clustering and Efficient Word Embedding
- arxiv url: http://arxiv.org/abs/2409.01628v1
- Date: Tue, 3 Sep 2024 05:53:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 02:43:06.878591
- Title: CTG-KrEW: Generating Synthetic Structured Contextually Correlated Content by Conditional Tabular GAN with K-Means Clustering and Efficient Word Embedding
- Title(参考訳): CTG-KrEW:K-平均クラスタリングと効率的な単語埋め込みによる条件付きタブラリGANによる合成構造関連コンテンツの生成
- Authors: Riya Samanta, Bidyut Saha, Soumya K. Ghosh, Sajal K. Das,
- Abstract要約: 条件付き Tabular Generative Adversarial Networks (CTGAN) は、合成データを効率的に作成する能力に魅力がある。
本稿では,属性が意味的・文脈的に一貫性のある単語の集合である現実的な合成データを生成するのに長けている新しいフレームワークCTGKrEWを紹介する。
CTGKrEWは、従来のアプローチに比べてCPU時間の約99%、メモリフットプリントを33%削減する。
- 参考スコア(独自算出の注目度): 12.072052949955385
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Conditional Tabular Generative Adversarial Networks (CTGAN) and their various derivatives are attractive for their ability to efficiently and flexibly create synthetic tabular data, showcasing strong performance and adaptability. However, there are certain critical limitations to such models. The first is their inability to preserve the semantic integrity of contextually correlated words or phrases. For instance, skillset in freelancer profiles is one such attribute where individual skills are semantically interconnected and indicative of specific domain interests or qualifications. The second challenge of traditional approaches is that, when applied to generate contextually correlated tabular content, besides generating semantically shallow content, they consume huge memory resources and CPU time during the training stage. To address these problems, we introduce a novel framework, CTGKrEW (Conditional Tabular GAN with KMeans Clustering and Word Embedding), which is adept at generating realistic synthetic tabular data where attributes are collections of semantically and contextually coherent words. CTGKrEW is trained and evaluated using a dataset from Upwork, a realworld freelancing platform. Comprehensive experiments were conducted to analyze the variability, contextual similarity, frequency distribution, and associativity of the generated data, along with testing the framework's system feasibility. CTGKrEW also takes around 99\% less CPU time and 33\% less memory footprints than the conventional approach. Furthermore, we developed KrEW, a web application to facilitate the generation of realistic data containing skill-related information. This application, available at https://riyasamanta.github.io/krew.html, is freely accessible to both the general public and the research community.
- Abstract(参考訳): 条件付き Tabular Generative Adversarial Networks (CTGAN) とその各種誘導体は, 高い性能と適応性を示すために, 効率的かつ柔軟に合成表データを作成する能力に魅力がある。
しかし、そのようなモデルには一定の限界がある。
1つ目は、文脈的に相関した単語やフレーズのセマンティックな整合性を維持することができないことである。
例えば、フリーランサープロファイルのスキルセットは、個々のスキルが意味的に相互接続され、特定のドメインの関心や資格を示すような特性である。
従来のアプローチの2つめの課題は、意味的に浅いコンテンツを生成することに加えて、コンテキスト的に相関した表型コンテンツを生成するために適用された場合、トレーニング段階で巨大なメモリリソースとCPU時間を消費することである。
これらの問題に対処するために, 属性が意味的および文脈的に一貫性のある単語の集合であるリアルな合成表データを生成するのに有効なCTGKrEW(Conditional Tabular GAN with KMeans Clustering and Word Embedding)を提案する。
CTGKrEWは、現実世界のフリーランシングプラットフォームであるUpworkのデータセットを使用して、トレーニングされ、評価される。
フレームワークのシステム実現可能性をテストするとともに, 変動性, 文脈的類似性, 周波数分布, 連想性を分析するための総合的な実験を行った。
CTGKrEWは、従来のアプローチに比べて、CPU時間の約99.%、メモリフットプリントも33.%削減している。
さらに,スキル関連情報を含むリアルなデータ生成を容易にするWebアプリケーションKrEWを開発した。
このアプリケーションはhttps://riyasamanta.github.io/krew.htmlで入手できる。
関連論文リスト
- Unleashing the Potential of Text-attributed Graphs: Automatic Relation Decomposition via Large Language Models [31.443478448031886]
RoSE (Relation-oriented Semantic Edge-Decomposition) は、生のテキスト属性を分析してグラフ構造を分解する新しいフレームワークである。
我々のフレームワークは、さまざまなデータセットのノード分類性能を大幅に向上させ、ウィスコンシンデータセットでは最大16%の改善を実現した。
論文 参考訳(メタデータ) (2024-05-28T20:54:47Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - JOBSKAPE: A Framework for Generating Synthetic Job Postings to Enhance
Skill Matching [18.94748873243611]
JobSkapeは、スキル・ツー・タコノミーマッチングのための合成データを生成するフレームワークである。
このフレームワーク内では、ジョブ投稿の包括的な合成データセットであるSkillSkapeを作成します。
本稿では,大規模言語モデルを用いたスキル抽出とマッチングタスクのための多段階パイプラインを提案する。
論文 参考訳(メタデータ) (2024-02-05T17:57:26Z) - Contextualization Distillation from Large Language Model for Knowledge
Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。
提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。
多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文 参考訳(メタデータ) (2024-01-28T08:56:49Z) - FedTabDiff: Federated Learning of Diffusion Probabilistic Models for
Synthetic Mixed-Type Tabular Data Generation [5.824064631226058]
textitFederated Tabular Diffusion (FedTabDiff) を導入し、元のデータセットに一元的にアクセスすることなく、高忠実な混合型表型データを生成する。
FedTabDiffは、データプライバシとローカリティを尊重しながら、複数のエンティティが共同で生成モデルをトレーニングできるようにする分散学習方式を実現する。
実世界の金融および医療データセットに関する実験的評価は、高い忠実性、ユーティリティ、プライバシ、カバレッジを維持する合成データを生成するフレームワークの能力を実証している。
論文 参考訳(メタデータ) (2024-01-11T21:17:50Z) - SUN: Exploring Intrinsic Uncertainties in Text-to-SQL Parsers [61.48159785138462]
本稿では,ニューラルネットワークに基づくアプローチ(SUN)における本質的な不確かさを探索することにより,テキストから依存への変換性能を向上させることを目的とする。
5つのベンチマークデータセットの大規模な実験により、我々の手法は競合より大幅に優れ、新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-09-14T06:27:51Z) - LOGEN: Few-shot Logical Knowledge-Conditioned Text Generation with
Self-training [76.90793623822866]
数ショット設定で論理的知識条件付きテキスト生成のための統一的なフレームワークを提案する。
本手法は, 自己学習を利用して, コンテンツと構造整合性に基づく擬似論理形式を抽出する。
論文 参考訳(メタデータ) (2021-12-02T16:49:41Z) - SHORING: Design Provable Conditional High-Order Interaction Network via
Symbolic Testing [15.324528842034177]
我々は、ニューラルネットワークによってどのような専門家由来の機能が学べるかという疑問に答えるのに役立つシンボリックテスティングフレームワークを提案する。
このテストフレームワークに触発されて、SHORINGと呼ばれる効率的なアーキテクチャを導入しました。
SHORINGは,標準的なマルチヘッド自己認識ネットワークでは学習できない,標準的な記号表現を学習することができる,と我々は主張する。
論文 参考訳(メタデータ) (2021-07-03T02:33:32Z) - Generative Counterfactuals for Neural Networks via Attribute-Informed
Perturbation [51.29486247405601]
AIP(Attribute-Informed Perturbation)の提案により,生データインスタンスの反事実を生成するフレームワークを設計する。
異なる属性を条件とした生成モデルを利用することで、所望のラベルとの反事実を効果的かつ効率的に得ることができる。
実世界のテキストや画像に対する実験結果から, 設計したフレームワークの有効性, サンプル品質, および効率が示された。
論文 参考訳(メタデータ) (2021-01-18T08:37:13Z) - Dynamic Hybrid Relation Network for Cross-Domain Context-Dependent
Semantic Parsing [52.24507547010127]
ドメイン間コンテキスト依存のセマンティック解析は研究の新たな焦点である。
本稿では,コンテキストの発話,トークン,データベーススキーマ,会話の進行に伴う複雑なインタラクションを効果的にモデル化する動的グラフフレームワークを提案する。
提案したフレームワークは既存のモデルを大きなマージンで上回り、2つの大規模ベンチマークで新しい最先端性能を達成する。
論文 参考訳(メタデータ) (2021-01-05T18:11:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。