論文の概要: Not All Features Deserve Attention: Graph-Guided Dependency Learning for Tabular Data Generation with Language Models
- arxiv url: http://arxiv.org/abs/2507.18504v1
- Date: Thu, 24 Jul 2025 15:22:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:43.919914
- Title: Not All Features Deserve Attention: Graph-Guided Dependency Learning for Tabular Data Generation with Language Models
- Title(参考訳): すべての特徴が注意に値するわけではない: 言語モデルを用いたタブラルデータ生成のためのグラフガイドによる依存性学習
- Authors: Zheyu Zhang, Shuo Yang, Bardh Prenkaj, Gjergji Kasneci,
- Abstract要約: 本研究では,疎依存性グラフを大規模言語モデルの注意機構に統合する新しい手法であるGraDe(Graph-Guided Dependency Learning)を提案する。
GraDeは、外部から抽出された関数依存によってガイドされる軽量な動的グラフ学習モジュールを採用し、重要機能間の相互作用を優先し、無関係なものを抑制する。
さまざまな実世界のデータセットに対する我々の実験は、GraDeが既存のLCMベースのアプローチを12%も上回っていることを示している。
- 参考スコア(独自算出の注目度): 15.476573983202162
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have shown strong potential for tabular data generation by modeling textualized feature-value pairs. However, tabular data inherently exhibits sparse feature-level dependencies, where many feature interactions are structurally insignificant. This creates a fundamental mismatch as LLMs' self-attention mechanism inevitably distributes focus across all pairs, diluting attention on critical relationships, particularly in datasets with complex dependencies or semantically ambiguous features. To address this limitation, we propose GraDe (Graph-Guided Dependency Learning), a novel method that explicitly integrates sparse dependency graphs into LLMs' attention mechanism. GraDe employs a lightweight dynamic graph learning module guided by externally extracted functional dependencies, prioritizing key feature interactions while suppressing irrelevant ones. Our experiments across diverse real-world datasets demonstrate that GraDe outperforms existing LLM-based approaches by up to 12% on complex datasets while achieving competitive results with state-of-the-art approaches in synthetic data quality. Our method is minimally intrusive yet effective, offering a practical solution for structure-aware tabular data modeling with LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、テキスト化された特徴値ペアをモデル化することによって、表形式のデータ生成に強い可能性を示している。
しかし、表形式のデータは本質的に、多くの機能相互作用が構造的に重要でない、スパースな機能レベルの依存関係を示す。
LLMの自己保持機構は必然的にすべてのペアに焦点を分散し、特に複雑な依存関係を持つデータセットやセマンティックに曖昧な特徴を持つデータセットにおいて、重要な関係に注意を向ける。
この制限に対処するため,LLM の注意機構に疎依存性グラフを明示的に統合する新しい手法 GraDe (Graph-Guided Dependency Learning) を提案する。
GraDeは、外部から抽出された関数依存によってガイドされる軽量な動的グラフ学習モジュールを採用し、重要機能間の相互作用を優先し、無関係なものを抑制する。
さまざまな実世界のデータセットに対する我々の実験は、GraDeが既存のLCMベースのアプローチを最大12%向上させながら、合成データ品質における最先端のアプローチによる競合的な結果を達成することを示した。
提案手法は最小限の侵入性を持つが有効であり,LLMを用いた構造対応表型データモデリングのための実用的なソリューションを提供する。
関連論文リスト
- SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。
トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文 参考訳(メタデータ) (2025-08-07T03:50:48Z) - Quantizing Text-attributed Graphs for Semantic-Structural Integration [6.721504414917793]
テキスト分散グラフ(TAG)は、様々な領域にわたる複雑な関係をモデル化するための強力な表現として登場した。
大規模言語モデル(LLM)の台頭に伴い、グラフ学習に彼らの能力を活用することへの関心が高まっている。
凍結したコードブックを用いて,グラフ構造情報を離散トークンに直接量子化する,新たな自己教師型フレームワークSTAGを提案する。
論文 参考訳(メタデータ) (2025-07-20T09:18:02Z) - Attention Mechanisms Perspective: Exploring LLM Processing of Graph-Structured Data [10.907949155931474]
大規模言語モデル(LLM)がグラフ構造化データをどのように処理するかを検討する。
LLMがグラフ構造データにどのように注意を向けるかというユニークな現象を明らかにする。
LLMによるデータモデリングを改善するために,これらの結果を分析した。
論文 参考訳(メタデータ) (2025-05-04T14:40:31Z) - LLM-TabFlow: Synthetic Tabular Data Generation with Inter-column Logical Relationship Preservation [49.898152180805454]
本研究は,合成表型データ生成におけるカラム間関係の保存について,初めて明示的に検討したものである。
LLM-TabFlowは複雑なカラム間関係と圧縮データをキャプチャする新しい手法であり、Score-based Diffusion を用いて遅延空間における圧縮データの分布をモデル化する。
LLM-TabFlowは、カラム間の関係を完全に保ちながら、データの忠実性、ユーティリティ、プライバシの最良のバランスを保ちながら、すべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2025-03-04T00:47:52Z) - TabGLM: Tabular Graph Language Model for Learning Transferable Representations Through Multi-Modal Consistency Minimization [2.1067477213933503]
TabGLM (Tabular Graph Language Model) はテーブルの構造情報と意味情報の両方をモデル化する新しいマルチモーダルアーキテクチャである。
テーブルの各行を完全に連結されたグラフとシリアライズされたテキストに変換し、それぞれグラフニューラルネットワーク(GNN)とテキストエンコーダを使って符号化する。
25のベンチマークデータセットに対する評価は、大幅なパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2025-02-26T05:32:45Z) - Matchmaker: Self-Improving Large Language Model Programs for Schema Matching [60.23571456538149]
本稿では,スキーママッチングのための合成言語モデルプログラムを提案する。
Matchmakerは、ラベル付きデモを必要とせずに、ゼロショットで自己改善する。
実証的に、Matchmakerが以前のMLベースのアプローチより優れている実世界の医療スキーママッチングベンチマークを実証する。
論文 参考訳(メタデータ) (2024-10-31T16:34:03Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Graph-based Unsupervised Disentangled Representation Learning via Multimodal Large Language Models [42.17166746027585]
複素データ内の因子化属性とその相互関係を学習するための双方向重み付きグラフベースフレームワークを提案する。
具体的には、グラフの初期ノードとして要素を抽出する$beta$-VAEベースのモジュールを提案する。
これらの相補的加群を統合することで、我々は細粒度、実用性、教師なしの絡み合いをうまく達成できる。
論文 参考訳(メタデータ) (2024-07-26T15:32:21Z) - How Data Inter-connectivity Shapes LLMs Unlearning: A Structural Unlearning Perspective [29.924482732745954]
既存のアプローチでは、忘れられるべきデータポイントは独立であり、接続性を無視していると仮定している。
構造データセットをコンパイルする手法であるPISTOLを提案する。
論文 参考訳(メタデータ) (2024-06-24T17:22:36Z) - EPIC: Effective Prompting for Imbalanced-Class Data Synthesis in Tabular Data Classification via Large Language Models [39.347666307218006]
大規模言語モデル (LLM) は、多様なアプリケーションにまたがるテキスト内学習能力を示す。
バランスの取れたデータサンプルと一貫したフォーマットと独自の変数マッピングを併用した新しい手法であるEPICを導入し、不均衡なデータセットであっても、全てのクラスで正確な合成データを生成するのにLLMをガイドする。
論文 参考訳(メタデータ) (2024-04-15T17:49:16Z) - Integrating Graphs with Large Language Models: Methods and Prospects [68.37584693537555]
大規模言語モデル (LLMs) が最前線として登場し、様々なアプリケーションにおいて非並列の長所を示している。
LLMとグラフ構造化データを組み合わせることは、非常に興味深いトピックです。
本稿では、そのような統合を2つの主要なカテゴリに分岐する。
論文 参考訳(メタデータ) (2023-10-09T07:59:34Z) - Learning Representations without Compositional Assumptions [79.12273403390311]
本稿では,特徴集合をグラフノードとして表現し,それらの関係を学習可能なエッジとして表現することで,特徴集合の依存関係を学習するデータ駆動型アプローチを提案する。
また,複数のビューから情報を動的に集約するために,より小さな潜在グラフを学習する新しい階層グラフオートエンコーダLEGATOを導入する。
論文 参考訳(メタデータ) (2023-05-31T10:36:10Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。