論文の概要: Semantic Labeling Using a Deep Contextualized Language Model
- arxiv url: http://arxiv.org/abs/2010.16037v1
- Date: Fri, 30 Oct 2020 03:04:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-01 17:39:13.042349
- Title: Semantic Labeling Using a Deep Contextualized Language Model
- Title(参考訳): 深層言語モデルを用いた意味的ラベル付け
- Authors: Mohamed Trabelsi, Jin Cao, Jeff Heflin
- Abstract要約: 本研究では,コラム値と文脈の両方を用いた文脈認識型セマンティックラベリング手法を提案する。
我々の新しい手法はセマンティックラベリングの新しい設定に基づいており、ヘッダーを欠いた入力テーブルのラベルを逐次予測する。
我々の知る限りでは、BERTをセマンティックラベリングタスクの解決に成功させたのは、私たちが初めてです。
- 参考スコア(独自算出の注目度): 9.719972529205101
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating schema labels automatically for column values of data tables has
many data science applications such as schema matching, and data discovery and
linking. For example, automatically extracted tables with missing headers can
be filled by the predicted schema labels which significantly minimizes human
effort. Furthermore, the predicted labels can reduce the impact of inconsistent
names across multiple data tables. Understanding the connection between column
values and contextual information is an important yet neglected aspect as
previously proposed methods treat each column independently. In this paper, we
propose a context-aware semantic labeling method using both the column values
and context. Our new method is based on a new setting for semantic labeling,
where we sequentially predict labels for an input table with missing headers.
We incorporate both the values and context of each data column using the
pre-trained contextualized language model, BERT, that has achieved significant
improvements in multiple natural language processing tasks. To our knowledge,
we are the first to successfully apply BERT to solve the semantic labeling
task. We evaluate our approach using two real-world datasets from different
domains, and we demonstrate substantial improvements in terms of evaluation
metrics over state-of-the-art feature-based methods.
- Abstract(参考訳): データテーブルの列値を自動的に生成するスキーマラベルには、スキーママッチングやデータ発見、リンクなど、多くのデータサイエンスアプリケーションがある。
例えば、ヘッダーを欠いた自動的に抽出されたテーブルは、予測されたスキーマラベルによって埋められる。
さらに、予測ラベルは複数のデータテーブルにまたがる一貫性のない名前の影響を低減することができる。
カラム値とコンテキスト情報の関連性を理解することは、従来提案されていた手法が各カラムを独立に扱うため、重要かつ無視された側面である。
本稿では,コラム値とコンテキストの両方を用いた文脈認識型意味ラベリング手法を提案する。
提案手法は,ヘッダの欠落した入力テーブルのラベルを逐次予測する,意味的ラベリングの新しい設定に基づいている。
我々は、複数の自然言語処理タスクにおいて大幅な改善を達成した、事前訓練された文脈型言語モデルBERTを用いて、各データ列の値とコンテキストの両方を組み込んだ。
私たちの知る限り、semantic labelingタスクの解決にbertをうまく適用したのは当社が初めてです。
我々は、異なるドメインの2つの実世界のデータセットを用いて、このアプローチを評価し、最先端の機能ベースメソッドに対する評価メトリクスの大幅な改善を実証する。
関連論文リスト
- Rethinking Pre-Training in Tabular Data: A Neighborhood Embedding Perspective [71.45945607871715]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
中心となる考え方は、データインスタンスを共有機能空間に埋め込むことで、各インスタンスは、近隣の固定数とそのラベルまでの距離で表現される。
101データセットの大規模な実験は、微調整の有無にかかわらず、分類タスクと回帰タスクの両方においてTabPTMの有効性を確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - Matching of Descriptive Labels to Glossary Descriptions [4.030805205247758]
本稿では,既存の意味テキスト類似度測定(STS)を活用し,セマンティックラベルの強化と集合的文脈化を用いて拡張するフレームワークを提案する。
公開データソースから得られた2つのデータセットについて実験を行った。
論文 参考訳(メタデータ) (2023-10-27T07:09:04Z) - Substituting Data Annotation with Balanced Updates and Collective Loss
in Multi-label Text Classification [19.592985329023733]
MLTC(Multi-label text classification)は、あるテキストに複数のラベルを割り当てるタスクである。
本報告では,MLTCの問題点を,ラベル数に比例して,利用可能な監視信号の大きさが線形であるアノテーションフリーおよび希少アノテーション設定で検討する。
提案手法は,(1)事前学習した言語モデルを用いて,入力テキストを事前ラベル候補の集合にマッピングし,(2)ラベル記述による署名付きラベル依存グラフの計算,(3)ラベル依存グラフに沿ったメッセージパスによる事前ラベル候補の更新を行う。
論文 参考訳(メタデータ) (2023-09-24T04:12:52Z) - Exploring Structured Semantic Prior for Multi Label Recognition with
Incomplete Labels [60.675714333081466]
不完全なラベルを持つマルチラベル認識(MLR)は非常に難しい。
最近の研究は、視覚言語モデルであるCLIPにおける画像とラベルの対応を探り、不十分なアノテーションを補うことを目指している。
我々は,MLRにおけるラベル管理の欠如を,構造化されたセマンティクスを導出することにより,不完全なラベルで修復することを提唱する。
論文 参考訳(メタデータ) (2023-03-23T12:39:20Z) - Tab2KG: Semantic Table Interpretation with Lightweight Semantic Profiles [3.655021726150368]
本稿では,テーブルのセマンティック解釈を意図したTab2KGを提案する。
ドメインの概念と関係を豊かにする独自の意味プロファイルを導入し、ドメインとテーブルの特徴を表現する。
既存のセマンティックテーブルの解釈アプローチとは対照的に、Tab2KGはセマンティックプロファイルのみに依存しており、インスタンスのルックアップを必要としない。
論文 参考訳(メタデータ) (2023-02-02T15:12:30Z) - Ground Truth Inference for Weakly Supervised Entity Matching [76.6732856489872]
弱監督タスクのための単純だが強力なラベル付けモデルを提案する。
次に、エンティティマッチングのタスクに特化してラベルモデルを調整します。
その結果,従来の手法よりもF1スコアが9%高い結果が得られた。
論文 参考訳(メタデータ) (2022-11-13T17:57:07Z) - UniRE: A Unified Label Space for Entity Relation Extraction [67.53850477281058]
合同エンティティ関係抽出モデルでは、2つのサブタスクに対して2つの分離ラベル空間を設定する。
この設定は、エンティティとリレーション間の情報相互作用を妨げる可能性があると我々は主張する。
本研究では,2つのサブタスクのラベル空間における異なる処理を除去することを提案する。
論文 参考訳(メタデータ) (2021-07-09T08:09:37Z) - MATCH: Metadata-Aware Text Classification in A Large Hierarchy [60.59183151617578]
MATCHはメタデータと階層情報の両方を利用するエンドツーエンドのフレームワークである。
親による各子ラベルのパラメータと出力確率を正規化するさまざまな方法を提案します。
大規模なラベル階層を持つ2つの大規模なテキストデータセットの実験は、MATCHの有効性を示しています。
論文 参考訳(メタデータ) (2021-02-15T05:23:08Z) - DLDL: Dynamic Label Dictionary Learning via Hypergraph Regularization [17.34373273007931]
ラベルなしデータに対するソフトラベル行列を生成するための動的ラベル辞書学習(DLDL)アルゴリズムを提案する。
具体的には、原データ、変換データ、ソフトラベル間の関係の整合性を維持するために、ハイパーグラフ多様体の正規化を用いる。
論文 参考訳(メタデータ) (2020-10-23T14:07:07Z) - Interaction Matching for Long-Tail Multi-Label Classification [57.262792333593644]
既存のマルチラベル分類モデルにおいて,制約に対処するためのエレガントで効果的なアプローチを提案する。
ソフトなn-gram相互作用マッチングを実行することで、ラベルと自然言語記述をマッチングする。
論文 参考訳(メタデータ) (2020-05-18T15:27:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。