論文の概要: Tabular Embeddings for Tables with Bi-Dimensional Hierarchical Metadata and Nesting
- arxiv url: http://arxiv.org/abs/2502.15819v1
- Date: Thu, 20 Feb 2025 01:04:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:59:23.178707
- Title: Tabular Embeddings for Tables with Bi-Dimensional Hierarchical Metadata and Nesting
- Title(参考訳): 二次元階層的メタデータとネスティングを持つテーブルのタブラル埋め込み
- Authors: Gyanendra Shrestha, Chutain Jiang, Sai Akula, Vivek Yannam, Anna Pyayt, Michael Gubanov,
- Abstract要約: テーブル内の複雑な2次元コンテキストの複雑さを符号化するために最適化された新しい特殊埋め込みを導入する。
我々の解は、最大0.28のMAPデルタで最先端のモデルより優れている。
- 参考スコア(独自算出の注目度): 0.7421845364041001
- License:
- Abstract: Embeddings serve as condensed vector representations for real-world entities, finding applications in Natural Language Processing (NLP), Computer Vision, and Data Management across diverse downstream tasks. Here, we introduce novel specialized embeddings optimized, and explicitly tailored to encode the intricacies of complex 2-D context in tables, featuring horizontal, vertical hierarchical metadata, and nesting. To accomplish that we define the Bi-dimensional tabular coordinates, separate horizontal, vertical metadata and data contexts by introducing a new visibility matrix, encode units and nesting through the embeddings specifically optimized for mimicking intricacies of such complex structured data. Through evaluation on 5 large-scale structured datasets and 3 popular downstream tasks, we observed that our solution outperforms the state-of-the-art models with the significant MAP delta of up to 0.28. GPT-4 LLM+RAG slightly outperforms us with MRR delta of up to 0.1, while we outperform it with the MAP delta of up to 0.42.
- Abstract(参考訳): 埋め込みは、現実世界のエンティティの凝縮ベクトル表現として機能し、さまざまな下流タスクにまたがる自然言語処理(NLP)、コンピュータビジョン、データ管理の応用を見つける。
本稿では,水平,垂直,階層的なメタデータ,ネストといった複雑な2次元コンテキストの複雑さを表にエンコードするように最適化された,新しい特殊埋め込みを提案する。
そこで我々は,2次元の表構造座標,水平メタデータ,垂直メタデータ,およびデータコンテキストを定義し,複雑な構造化データの複雑さの模倣に特化して,新しい可視性行列を導入し,単位をエンコードし,埋め込みを通してネストする。
5つの大規模構造化データセットと3つのポピュラーな下流タスクの評価を通じて、我々のソリューションは、最大0.28のMAPデルタを持つ最先端のモデルよりも優れていることを観察した。
GPT-4 LLM+RAGは、最大0.1のMRRデルタで、最大0.42のMAPデルタで少し上回る。
関連論文リスト
- On LLM-Enhanced Mixed-Type Data Imputation with High-Order Message Passing [29.144451092549048]
データ計算の欠如は、データセットの完全性を達成するために、生データセットの欠落した値をインプットすることを目的としている。
1)数値データと分類データしかサポートしていないか,2)不満足な性能を示す。
We propose UnIMP, a Unified IMPutation framework that leverageing LLM and high-order message passing to enhance the imputation of mixed-type data。
論文 参考訳(メタデータ) (2025-01-04T05:05:44Z) - 2D-TPE: Two-Dimensional Positional Encoding Enhances Table Understanding for Large Language Models [48.123582712115336]
既存の方法はしばしば2次元のテーブル構造をトークンの列に平らにする。
2D-TPEは、計算効率を保ちながら本質的な空間情報を失うリスクを効果的に軽減する。
5つのベンチマークによる大規模な実験は、2D-TPEが強いベースラインより優れていることを示している。
論文 参考訳(メタデータ) (2024-09-29T13:16:37Z) - Entropic Optimal Transport Eigenmaps for Nonlinear Alignment and Joint Embedding of High-Dimensional Datasets [11.105392318582677]
本稿では,理論的保証付きデータセットの整列と共同埋め込みの原理的アプローチを提案する。
提案手法は,2つのデータセット間のEOT計画行列の先頭特異ベクトルを利用して,それらの共通基盤構造を抽出する。
EOT計画では,高次元状態において,潜伏変数の位置で評価されたカーネル関数を近似することにより,共有多様体構造を復元する。
論文 参考訳(メタデータ) (2024-07-01T18:48:55Z) - 4DBInfer: A 4D Benchmarking Toolbox for Graph-Centric Predictive Modeling on Relational DBs [67.47600679176963]
RDBは、相互接続されたテーブルにまたがる膨大な量のリッチで情報的なデータを格納する。
予測機械学習モデルの進歩は、コンピュータビジョンや自然言語処理といった他の領域の進歩に遅れをとっている。
マルチテーブルデータセットをグラフに変換することを前提としたベースラインモデルのクラスを探索する。
大規模RDBデータセットと (ii) 同時予測タスクの多様なコレクションを組み立てる。
論文 参考訳(メタデータ) (2024-04-28T15:04:54Z) - COCO is "ALL'' You Need for Visual Instruction Fine-tuning [39.438410070172125]
ビジュアルインストラクション微調整(IFT)は、MLLMの出力をユーザの意図に合わせるための重要なプロセスである。
近年,多面的アプローチによる視覚的IFTデータセットの構築が提案されている。
我々は新しいIFTデータセットを構築し、COCOデータセットからの画像と、より多様な指示を得られるようにした。
論文 参考訳(メタデータ) (2024-01-17T04:43:45Z) - Struc-Bench: Are Large Language Models Really Good at Generating Complex Structured Data? [49.688233418425995]
Struc-Benchは、大きな言語モデル(LLM)を特徴とする包括的なベンチマークである。
Pスコア(Prompting Score)とHスコア(Heuristical Score)の2つの革新的な指標を提案する。
実験の結果,LLaMA-7Bに構造認識の微調整を適用すると,性能が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-09-16T11:31:58Z) - Deep Recursive Embedding for High-Dimensional Data [9.611123249318126]
本稿では,DNN(Deep Neural Network)と高次元データ埋め込みのための数学誘導埋め込みルールを組み合わせることを提案する。
本稿では,高次元空間から低次元空間へのパラメトリックマッピングを学習可能な汎用ディープ埋め込みネットワーク(DEN)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-31T23:22:33Z) - Index $t$-SNE: Tracking Dynamics of High-Dimensional Datasets with
Coherent Embeddings [1.7188280334580195]
本稿では,クラスタの位置を保存した新しいものを作成するために,埋め込みを再利用する手法を提案する。
提案アルゴリズムは,新しい項目を埋め込むために$t$-SNEと同じ複雑さを持つ。
論文 参考訳(メタデータ) (2021-09-22T06:45:37Z) - Campus3D: A Photogrammetry Point Cloud Benchmark for Hierarchical
Understanding of Outdoor Scene [76.4183572058063]
複数の屋外シーン理解タスクに対して,リッチな注釈付き3Dポイントクラウドデータセットを提案する。
データセットは階層型ラベルとインスタンスベースのラベルの両方でポイントワイズアノテートされている。
本稿では,3次元点雲分割のための階層的学習問題を定式化し,様々な階層間の整合性を評価することを提案する。
論文 参考訳(メタデータ) (2020-08-11T19:10:32Z) - Two-Dimensional Semi-Nonnegative Matrix Factorization for Clustering [50.43424130281065]
TS-NMFと呼ばれる2次元(2次元)データに対する新しい半負行列分解法を提案する。
前処理ステップで2次元データをベクトルに変換することで、データの空間情報に深刻なダメージを与える既存の手法の欠点を克服する。
論文 参考訳(メタデータ) (2020-05-19T05:54:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。