論文の概要: Learning Relational Tabular Data without Shared Features
- arxiv url: http://arxiv.org/abs/2502.10125v1
- Date: Fri, 14 Feb 2025 12:51:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 14:47:17.566176
- Title: Learning Relational Tabular Data without Shared Features
- Title(参考訳): 特徴の共有を伴わない関係的語彙データの学習
- Authors: Zhaomin Wu, Shida Wang, Ziyang Wang, Bingsheng He,
- Abstract要約: 共有機能や事前整合データを必要としない効果的なクロステーブルトレーニングを実現する新しいフレームワークを提案する。
リールは、適切に整列されたデータは、不正な整列したデータよりも損失が低いという原則で機能する。
リールは最先端の手法に比べて予測性能が26.8%向上した。
- 参考スコア(独自算出の注目度): 30.942923807656104
- License:
- Abstract: Learning relational tabular data has gained significant attention recently, but most studies focus on single tables, overlooking the potential of cross-table learning. Cross-table learning, especially in scenarios where tables lack shared features and pre-aligned data, offers vast opportunities but also introduces substantial challenges. The alignment space is immense, and determining accurate alignments between tables is highly complex. We propose Latent Entity Alignment Learning (Leal), a novel framework enabling effective cross-table training without requiring shared features or pre-aligned data. Leal operates on the principle that properly aligned data yield lower loss than misaligned data, a concept embodied in its soft alignment mechanism. This mechanism is coupled with a differentiable cluster sampler module, ensuring efficient scaling to large relational tables. Furthermore, we provide a theoretical proof of the cluster sampler's approximation capacity. Extensive experiments on five real-world and five synthetic datasets show that Leal achieves up to a 26.8% improvement in predictive performance compared to state-of-the-art methods, demonstrating its effectiveness and scalability.
- Abstract(参考訳): 近年、関係表データの学習が注目されているが、ほとんどの研究は、クロステーブル学習の可能性を見越して、単一のテーブルに焦点を当てている。
クロステーブル学習、特に表に共有機能や事前整列データがないシナリオでは、大きな機会を提供するが、大きな課題ももたらしている。
アライメント空間は巨大であり、テーブル間の正確なアライメントを決定することは極めて複雑である。
提案するLatent Entity Alignment Learning (Leal)は,共有機能や事前整合データを必要としない,効果的なクロステーブルトレーニングを実現する新しいフレームワークである。
リールはそのソフトアライメント機構に具現化された概念である、ミスアライメントされたデータよりも適切にアライメントされたデータが損失を減少させるという原則に基づいている。
このメカニズムは、大きなリレーショナルテーブルへの効率的なスケーリングを保証するために、差別化可能なクラスタサンプリングモジュールと結合される。
さらに,クラスタサンプリング器の近似能力を理論的に検証した。
5つの実世界と5つの合成データセットに関する大規模な実験は、リールが最先端の手法と比較して26.8%の予測性能の向上を達成し、その有効性とスケーラビリティを実証していることを示している。
関連論文リスト
- Understanding and Scaling Collaborative Filtering Optimization from the Perspective of Matrix Rank [48.02330727538905]
協調フィルタリング(CF)手法は現実世界のレコメンデーションシステムを支配している。
本研究では,異なる学習戦略下での埋め込みテーブルの特性について検討する。
ユーザの安定なランクとアイテムの埋め込みを規則化する,効率的なウォームスタート戦略を提案する。
論文 参考訳(メタデータ) (2024-10-15T21:54:13Z) - What Makes CLIP More Robust to Long-Tailed Pre-Training Data? A Controlled Study for Transferable Insights [67.72413262980272]
大規模なデータ不均衡は、Webスケールの視覚言語データセットの間に自然に存在する。
事前学習したCLIPは、教師付き学習と比較してデータ不均衡に顕著な堅牢性を示す。
CLIPの堅牢性と差別性は、より記述的な言語監督、より大きなデータスケール、より広いオープンワールドの概念によって改善される。
論文 参考訳(メタデータ) (2024-05-31T17:57:24Z) - Active Learning with Combinatorial Coverage [0.0]
アクティブな学習は、ラベル付けするデータを選択するプロセスを自動化する機械学習の実践的な分野である。
現在の手法はデータラベリングの負担を軽減するのに有効であるが、モデルに強く依存する。
これにより、サンプルデータの新しいモデルへの転送が不可能になり、サンプリングバイアスの問題も発生した。
本稿では,これらの課題を克服するために,カバレッジを活用した能動的学習手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T13:43:23Z) - Sequential Targeting: an incremental learning approach for data
imbalance in text classification [7.455546102930911]
不均衡なデータセットを扱う方法は、分散スキューを軽減するために不可欠である。
本稿では,提案手法の有効性によらず,新たなトレーニング手法であるシーケンスターゲティング(ST)を提案する。
シミュレーションベンチマークデータセット(IMDB)とNAVERから収集したデータを用いて,本手法の有効性を示す。
論文 参考訳(メタデータ) (2020-11-20T04:54:00Z) - Counterfactual Representation Learning with Balancing Weights [74.67296491574318]
観察データによる因果推論の鍵は、それぞれの治療タイプに関連する予測的特徴のバランスを達成することである。
近年の文献では、この目標を達成するために表現学習を探求している。
因果効果を柔軟かつスケーラブルかつ正確に推定するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-10-23T19:06:03Z) - Fairness in Semi-supervised Learning: Unlabeled Data Help to Reduce
Discrimination [53.3082498402884]
機械学習の台頭における投機は、機械学習モデルによる決定が公正かどうかである。
本稿では,未ラベルデータのラベルを予測するための擬似ラベリングを含む,前処理フェーズにおける公平な半教師付き学習の枠組みを提案する。
偏見、分散、ノイズの理論的分解分析は、半教師付き学習における差別の異なる源とそれらが公平性に与える影響を浮き彫りにする。
論文 参考訳(メタデータ) (2020-09-25T05:48:56Z) - Fairness Constraints in Semi-supervised Learning [56.48626493765908]
我々は,最適化問題として定式化された,公平な半教師付き学習のためのフレームワークを開発する。
偏り・分散・雑音分解による半教師あり学習における識別源を理論的に分析する。
本手法は, 公平な半教師付き学習を達成でき, 公正な教師付き学習よりも精度と公平性のトレードオフが良好である。
論文 参考訳(メタデータ) (2020-09-14T04:25:59Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。