論文の概要: Observatory: Characterizing Embeddings of Relational Tables
- arxiv url: http://arxiv.org/abs/2310.07736v3
- Date: Sat, 27 Jan 2024 17:54:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 21:31:13.755102
- Title: Observatory: Characterizing Embeddings of Relational Tables
- Title(参考訳): observatory:リレーショナルテーブルの埋め込みを特徴付ける
- Authors: Tianji Cong, Madelon Hulsebos, Zhenjie Sun, Paul Groth, H. V. Jagadish
- Abstract要約: 研究者や実践者は、多くの新しいアプリケーションコンテキストにおいて、言語とテーブルの埋め込みモデルを活用することに熱心です。
下流利用における非効率性と失敗を最小限に抑えるために、これらのモデルの包括的な理解を得る必要がある。
本研究では,関係表の埋め込み表現を体系的に解析する公式なフレームワークであるObservatoryを提案する。
- 参考スコア(独自算出の注目度): 15.808819332614712
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Language models and specialized table embedding models have recently
demonstrated strong performance on many tasks over tabular data. Researchers
and practitioners are keen to leverage these models in many new application
contexts; but limited understanding of the strengths and weaknesses of these
models, and the table representations they generate, makes the process of
finding a suitable model for a given task reliant on trial and error. There is
an urgent need to gain a comprehensive understanding of these models to
minimize inefficiency and failures in downstream usage.
To address this need, we propose Observatory, a formal framework to
systematically analyze embedding representations of relational tables.
Motivated both by invariants of the relational data model and by statistical
considerations regarding data distributions, we define eight primitive
properties, and corresponding measures to quantitatively characterize table
embeddings for these properties. Based on these properties, we define an
extensible framework to evaluate language and table embedding models. We
collect and synthesize a suite of datasets and use Observatory to analyze nine
such models. Our analysis provides insights into the strengths and weaknesses
of learned representations over tables. We find, for example, that some models
are sensitive to table structure such as column order, that functional
dependencies are rarely reflected in embeddings, and that specialized table
embedding models have relatively lower sample fidelity. Such insights help
researchers and practitioners better anticipate model behaviors and select
appropriate models for their downstream tasks, while guiding researchers in the
development of new models.
- Abstract(参考訳): 言語モデルと特殊なテーブル埋め込みモデルは最近、表データよりも多くのタスクで強いパフォーマンスを示している。
研究者や実践者は、これらのモデルを多くの新しいアプリケーションコンテキストで活用したいと熱心に考えている。しかし、これらのモデルの強みと弱さ、そしてそれらが生成するテーブル表現について、試行錯誤に依存するタスクに適したモデルを見つけるプロセスは限られている。
下流利用における非効率性と失敗を最小限に抑えるために、これらのモデルの包括的な理解を得る必要がある。
そこで本稿では,関係表の埋め込み表現を体系的に解析する形式的フレームワークであるobservationを提案する。
関係データモデルの不変性とデータ分布に関する統計的考察の両方により動機づけられた8つの原始的性質と、これらの性質の表埋め込みを定量的に特徴付けるための対応する尺度を定義する。
これらの特性に基づき、言語および表埋め込みモデルを評価する拡張可能なフレームワークを定義する。
データセットの集合を収集し合成し、オブザーバを使用して9つのモデルを分析します。
我々の分析は、テーブル上の学習表現の強みと弱みに関する洞察を提供する。
例えば、列の順序のようなテーブル構造に敏感なモデルもあり、機能的依存関係は埋め込みにはほとんど反映されず、特殊なテーブル埋め込みモデルは比較的低いサンプル忠実度を持つ。
このような洞察は、研究者や実践者がモデルの振る舞いをよりよく予測し、下流のタスクに適したモデルを選択するのに役立つ。
関連論文リスト
- Learning-based Models for Vulnerability Detection: An Extensive Study [3.1317409221921144]
我々は、最先端の学習ベースアプローチの2つのタイプを広範かつ包括的に調査する。
本稿では,シーケンスベースモデルの優先度と,グラフベースモデルの限定能力について実験的に検証する。
論文 参考訳(メタデータ) (2024-08-14T13:01:30Z) - Tabular Embedding Model (TEM): Finetuning Embedding Models For Tabular RAG Applications [0.0]
Tabular Embedding Model (TEM) は、表型検索・拡張生成(RAG)アプリケーションのためのファインチューン埋め込みモデルに対する新しいアプローチである。
TEMは現在のSOTA埋め込みモデルよりも優れているだけでなく、より小さく、より効率的なモデル構造でも優れている。
論文 参考訳(メタデータ) (2024-04-28T14:58:55Z) - Wiki-TabNER:Advancing Table Interpretation Through Named Entity
Recognition [19.423556742293762]
TIタスクの評価に広く用いられているベンチマークデータセットを分析した。
この欠点を克服するため、我々はより困難なデータセットを構築し、注釈付けします。
本稿では,新たに開発された大規模言語モデルを評価するためのプロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T15:22:07Z) - Minimal Value-Equivalent Partial Models for Scalable and Robust Planning
in Lifelong Reinforcement Learning [56.50123642237106]
モデルに基づく強化学習における一般的な実践は、エージェントの環境のあらゆる側面をモデル化するモデルを学ぶことである。
このようなモデルは、生涯にわたる強化学習シナリオにおいて、スケーラブルで堅牢な計画を実行するのに特に適していない、と我々は主張する。
我々は,「最小値部分モデル」と呼ぶ,環境の関連する側面のみをモデル化する新しい種類のモデルを提案する。
論文 参考訳(メタデータ) (2023-01-24T16:40:01Z) - Synthetic Model Combination: An Instance-wise Approach to Unsupervised
Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。
専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文 参考訳(メタデータ) (2022-10-11T10:20:31Z) - Generalization Properties of Retrieval-based Models [50.35325326050263]
検索ベースの機械学習手法は、幅広い問題で成功をおさめた。
これらのモデルの約束を示す文献が増えているにもかかわらず、そのようなモデルの理論的基盤はいまだに解明されていない。
本稿では,その一般化能力を特徴付けるために,検索ベースモデルの形式的処理を行う。
論文 参考訳(メタデータ) (2022-10-06T00:33:01Z) - Making Table Understanding Work in Practice [9.352813774921655]
表理解モデルをデプロイする上での3つの課題について論じ,それに対応するためのフレームワークを提案する。
本稿では、GitTablesでトレーニングされたハイブリッドモデルをカプセル化し、軽量なHuman-in-the-loopアプローチを統合してモデルをカスタマイズするSigmaTyperを提案する。
論文 参考訳(メタデータ) (2021-09-11T03:38:24Z) - When Can Models Learn From Explanations? A Formal Framework for
Understanding the Roles of Explanation Data [84.87772675171412]
個々のデータポイントの説明がモデリング性能を向上させる状況について検討する。
e-SNLI、TACRED、SemEvalの3つの既存のデータセットを使って説明します。
論文 参考訳(メタデータ) (2021-02-03T18:57:08Z) - CHEER: Rich Model Helps Poor Model via Knowledge Infusion [69.23072792708263]
我々は、そのようなリッチなモデルを伝達可能な表現に簡潔に要約できる知識注入フレームワークCHEERを開発した。
実験の結果、CHEERは複数の生理的データセットのマクロF1スコアにおいて、ベースラインを5.60%から46.80%上回った。
論文 参考訳(メタデータ) (2020-05-21T21:44:21Z) - Explainable Matrix -- Visualization for Global and Local
Interpretability of Random Forest Classification Ensembles [78.6363825307044]
本研究では,ランダムフォレスト (RF) 解釈のための新しい可視化手法である Explainable Matrix (ExMatrix) を提案する。
単純なマトリックスのようなメタファで、行はルール、列は特徴、セルはルールを述語する。
ExMatrixの適用性は、異なる例を通じて確認され、RFモデルの解釈可能性を促進するために実際にどのように使用できるかを示している。
論文 参考訳(メタデータ) (2020-05-08T21:03:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。