論文の概要: TabGLM: Tabular Graph Language Model for Learning Transferable Representations Through Multi-Modal Consistency Minimization
- arxiv url: http://arxiv.org/abs/2502.18847v1
- Date: Wed, 26 Feb 2025 05:32:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:57:03.903335
- Title: TabGLM: Tabular Graph Language Model for Learning Transferable Representations Through Multi-Modal Consistency Minimization
- Title(参考訳): TabGLM:マルチモーダル一貫性最小化による伝達可能な表現学習のためのタブラルグラフ言語モデル
- Authors: Anay Majee, Maria Xenochristou, Wei-Peng Chen,
- Abstract要約: TabGLM (Tabular Graph Language Model) はテーブルの構造情報と意味情報の両方をモデル化する新しいマルチモーダルアーキテクチャである。
テーブルの各行を完全に連結されたグラフとシリアライズされたテキストに変換し、それぞれグラフニューラルネットワーク(GNN)とテキストエンコーダを使って符号化する。
25のベンチマークデータセットに対する評価は、大幅なパフォーマンス向上を示している。
- 参考スコア(独自算出の注目度): 2.1067477213933503
- License:
- Abstract: Handling heterogeneous data in tabular datasets poses a significant challenge for deep learning models. While attention-based architectures and self-supervised learning have achieved notable success, their application to tabular data remains less effective over linear and tree based models. Although several breakthroughs have been achieved by models which transform tables into uni-modal transformations like image, language and graph, these models often underperform in the presence of feature heterogeneity. To address this gap, we introduce TabGLM (Tabular Graph Language Model), a novel multi-modal architecture designed to model both structural and semantic information from a table. TabGLM transforms each row of a table into a fully connected graph and serialized text, which are then encoded using a graph neural network (GNN) and a text encoder, respectively. By aligning these representations through a joint, multi-modal, self-supervised learning objective, TabGLM leverages complementary information from both modalities, thereby enhancing feature learning. TabGLM's flexible graph-text pipeline efficiently processes heterogeneous datasets with significantly fewer parameters over existing Deep Learning approaches. Evaluations across 25 benchmark datasets demonstrate substantial performance gains, with TabGLM achieving an average AUC-ROC improvement of up to 5.56% over State-of-the-Art (SoTA) tabular learning methods.
- Abstract(参考訳): 表形式のデータセットで異種データを扱うことは、ディープラーニングモデルにとって大きな課題となる。
注意に基づくアーキテクチャと自己教師型学習は目覚ましい成功を収めているが、グラフデータへの適用は線形モデルやツリーベースモデルよりも効果が低い。
テーブルを画像、言語、グラフのような一様変換に変換するモデルによっていくつかのブレークスルーが達成されているが、これらのモデルは特徴の不均一性の存在下では性能が劣ることが多い。
このギャップに対処するために,テーブルからの構造情報と意味情報の両方をモデル化する新しいマルチモーダルアーキテクチャであるTabGLM(Tabular Graph Language Model)を導入する。
TabGLMはテーブルの各行を完全に連結されたグラフとシリアライズされたテキストに変換し、それぞれグラフニューラルネットワーク(GNN)とテキストエンコーダを使用して符号化する。
これらの表現を複数モーダルで自己指導型学習目標を通じて整列させることで、TabGLMは両モードの相補的な情報を活用し、特徴学習を強化する。
TabGLMの柔軟なグラフテキストパイプラインは、既存のディープラーニングアプローチよりもはるかに少ないパラメータを持つ異種データセットを効率的に処理する。
25のベンチマークデータセットで評価すると、TabGLMは平均5.56%のAUC-ROC改善を達成し、State-of-the-Art (SoTA) の表形式の学習方法よりも大幅にパフォーマンスが向上した。
関連論文リスト
- On LLM-Enhanced Mixed-Type Data Imputation with High-Order Message Passing [29.144451092549048]
データ計算の欠如は、データセットの完全性を達成するために、生データセットの欠落した値をインプットすることを目的としている。
1)数値データと分類データしかサポートしていないか,2)不満足な性能を示す。
We propose UnIMP, a Unified IMPutation framework that leverageing LLM and high-order message passing to enhance the imputation of mixed-type data。
論文 参考訳(メタデータ) (2025-01-04T05:05:44Z) - Graph Learning in the Era of LLMs: A Survey from the Perspective of Data, Models, and Tasks [25.720233631885726]
グラフニューラルネットワーク(GNN)とLarge Language Models(LLM)の統合は、有望な技術パラダイムとして現れている。
データ品質を根本的に向上させるために、リッチなセマンティックコンテキストを持つグラフ記述テキストを活用します。
この研究は、グラフ学習方法論の進歩を目指す研究者や実践者にとって、基礎的な参考となる。
論文 参考訳(メタデータ) (2024-12-17T01:41:17Z) - A Survey on Deep Tabular Learning [0.0]
タブラルデータは、その不均一な性質と空間構造が欠如していることから、深層学習の独特な課題を提示する。
本調査では,早期完全接続ネットワーク(FCN)から,TabNet,SAINT,TabTranSELU,MambaNetといった先進アーキテクチャに至るまで,タブラルデータのディープラーニングモデルの進化を概観する。
論文 参考訳(メタデータ) (2024-10-15T20:08:08Z) - GT2Vec: Large Language Models as Multi-Modal Encoders for Text and Graph-Structured Data [42.18348019901044]
GT2Vecは、大規模言語モデルを利用して、テキストとグラフデータを共同でエンコードするフレームワークである。
従来の作業とは異なり、グラフやテキスト空間をより効果的に整合させるために、コントラスト学習を導入する。
論文 参考訳(メタデータ) (2024-10-15T03:40:20Z) - How to Make LLMs Strong Node Classifiers? [70.14063765424012]
言語モデル(LM)は、グラフニューラルネットワーク(GNN)やグラフトランスフォーマー(GT)など、ドメイン固有のモデルの優位性に挑戦している。
本稿では,ノード分類タスクにおける最先端(SOTA)GNNに匹敵する性能を実現するために,既製のLMを有効活用する手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T08:27:54Z) - Knowledge-Aware Reasoning over Multimodal Semi-structured Tables [85.24395216111462]
本研究では、現在のAIモデルがマルチモーダルな構造化データに基づいて知識を考慮した推論を行うことができるかどうかを検討する。
この目的のために設計された新しいデータセットであるMMTabQAを紹介する。
我々の実験は、複数のテキストと画像の入力を効果的に統合し解釈する上で、現在のAIモデルに対する重大な課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-08-25T15:17:43Z) - ChartLlama: A Multimodal LLM for Chart Understanding and Generation [70.1393163657813]
GPT-4を利用した高品質な命令チューニングデータセットを作成する。
次に、生成したデータセットを使ってトレーニングしたマルチモーダルな大規模言語モデルであるChartLlamaを紹介します。
論文 参考訳(メタデータ) (2023-11-27T15:20:23Z) - FLIP: Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction [49.510163437116645]
クリックスルーレート(CTR)予測は、パーソナライズされたオンラインサービスにおいてコア機能モジュールとして機能する。
CTR予測のための従来のIDベースのモデルは、表形式の1ホットエンコードされたID特徴を入力として取る。
事前訓練された言語モデル(PLM)は、テキストのモダリティの文を入力として取る別のパラダイムを生み出した。
本稿では,CTR予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
論文 参考訳(メタデータ) (2023-10-30T11:25:03Z) - SubTab: Subsetting Features of Tabular Data for Self-Supervised
Representation Learning [5.5616364225463055]
私たちはTabular Data(SubTab)のサブセット機能である新しいフレームワークを紹介します。
本稿では,タブラルデータ(SubTab)のサブセット機能である新しいフレームワークを提案する。
我々は、自動エンコーダ設定で、その機能の一部分からデータを再構成することで、その基盤となる表現をよりよく捉えることができると論じている。
論文 参考訳(メタデータ) (2021-10-08T20:11:09Z) - GraphFormers: GNN-nested Transformers for Representation Learning on
Textual Graph [53.70520466556453]
階層的にGNNコンポーネントを言語モデルのトランスフォーマーブロックと一緒にネストするGraphFormerを提案する。
提案したアーキテクチャでは、テキストエンコーディングとグラフ集約を反復的なワークフローに融合する。
さらに、プログレッシブ・ラーニング・ストラテジーを導入し、そのモデルが操作されたデータと元のデータに基づいて連続的に訓練され、グラフ上の情報を統合する能力を強化する。
論文 参考訳(メタデータ) (2021-05-06T12:20:41Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。