論文の概要: Identifying the Units of Measurement in Tabular Data
- arxiv url: http://arxiv.org/abs/2111.11959v1
- Date: Tue, 23 Nov 2021 15:53:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-24 16:09:02.604601
- Title: Identifying the Units of Measurement in Tabular Data
- Title(参考訳): 表データにおける測定単位の同定
- Authors: Taha Ceritli and Christopher K. I. Williams
- Abstract要約: 各行に数値と単位記号の両方を含むデータ列で測定単位を識別する問題を考察する。
この場合、列の次元(ボリュームなど)を特定し、単位記号を知識グラフから得られる有効単位(リッター、ピントなど)に関連付ける。
本稿では,測定単位を正確に識別し,定量データ列の意味的記述を抽出し,そのエントリを正準化する確率的単位正準化器を提案する。
- 参考スコア(独自算出の注目度): 4.454557728745761
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of identifying the units of measurement in a data
column that contains both numeric values and unit symbols in each row, e.g.,
"5.2 l", "7 pints". In this case we seek to identify the dimension of the
column (e.g. volume) and relate the unit symbols to valid units (e.g. litre,
pint) obtained from a knowledge graph. Below we present PUC, a Probabilistic
Unit Canonicalizer that can accurately identify the units of measurement,
extract semantic descriptions of quantitative data columns and canonicalize
their entries. We present the first messy real-world tabular datasets annotated
for units of measurement, which can enable and accelerate the research in this
area. Our experiments on these datasets show that PUC achieves better results
than existing solutions.
- Abstract(参考訳): 本研究では,各行の数値と単位記号の両方を含むデータ列,例えば "5.2 l", "7 pints" の計測単位を識別する問題を考える。
この場合、列の次元(ボリュームなど)を特定し、単位記号を知識グラフから得られる有効単位(リッター、ピントなど)に関連付ける。
以下に、測定単位を正確に識別し、定量データ列のセマンティック記述を抽出し、それらのエントリを正準化できる確率的単位正準化器であるPUCを紹介する。
本稿では,測定単位にアノテートされた最初の乱雑な実世界の表型データセットを提案する。
これらのデータセットに関する実験は、pucが既存のソリューションよりも優れた結果を得ることを示している。
関連論文リスト
- Fused Gromov-Wasserstein Variance Decomposition with Linear Optimal Transport [11.94799054956877]
2-ワッサーシュタイン空間における測度の集合のフレット分散の分解を行い、これらの測度のLOT埋め込みによって説明される分散の割合を計算する。
また, 組込みLOTの寸法, 分散率, 組込みデータに基づく機械学習分類器の分類精度との関係について検討した。
論文 参考訳(メタデータ) (2024-11-15T14:10:52Z) - Capture the Flag: Uncovering Data Insights with Large Language Models [90.47038584812925]
本研究では,Large Language Models (LLMs) を用いてデータの洞察の発見を自動化する可能性について検討する。
そこで本稿では,データセット内の意味的かつ関連する情報(フラグ)を識別する能力を測定するために,フラグを捕捉する原理に基づく新しい評価手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T14:20:06Z) - Effective resistance in metric spaces [65.94598202303497]
有効抵抗(ER)はグラフの構造を問う魅力的な方法である。
サンプルのサイズが無限大になるにつれて、任意の2点間のERが自明な量に収束することを示す。
領域を固定し続けることにより、点数が無限大になるにつれて、領域ベースのERが非自明な極限に収束することを示す。
論文 参考訳(メタデータ) (2023-06-27T17:43:18Z) - CQE: A Comprehensive Quantity Extractor [2.2079886535603084]
テキストデータから包括的量抽出フレームワークを提案する。
値と単位の組み合わせ、量の振る舞い、量と関連する概念を効率的に検出する。
本フレームワークは, 依存解析と単位辞書を利用して, 検出された量の適切な正規化と標準化を実現する。
論文 参考訳(メタデータ) (2023-05-15T17:59:41Z) - Measuring Data [79.89948814583805]
我々は、機械学習データとデータセットの構成を定量的に特徴付けるために、データを測定するタスクを特定する。
データ測定は、比較をサポートする共通の次元に沿って、データの異なる属性を定量化する。
我々は、今後の研究の多くの方法、データ測定の限界、そしてこれらの測定手法を研究・実践に活用する方法について議論した。
論文 参考訳(メタデータ) (2022-12-09T22:10:46Z) - The Architectural Bottleneck Principle [67.20385981822746]
アーキテクチャボトルネックの原則である探索のための新しい原則を提案する。
あるコンポーネントがどれだけ情報を抽出できるかを見積もるためには、プローブはコンポーネントと全く同じように見えるべきです。
3つのモデル(BERT, ALBERT, RoBERTa)において,文の構文木は探索によって抽出可能であることがわかった。
論文 参考訳(メタデータ) (2022-11-11T18:58:08Z) - Wasserstein t-SNE [25.241296604908424]
本稿では,ワッサーシュタイン距離距離計を用いた階層的データセットの探索的解析手法を開発した。
対のワッサーシュタイン距離の行列に基づいて、t-SNEを用いて単位の2次元埋め込みを構築する。
論文 参考訳(メタデータ) (2022-05-16T09:09:24Z) - UniRE: A Unified Label Space for Entity Relation Extraction [67.53850477281058]
合同エンティティ関係抽出モデルでは、2つのサブタスクに対して2つの分離ラベル空間を設定する。
この設定は、エンティティとリレーション間の情報相互作用を妨げる可能性があると我々は主張する。
本研究では,2つのサブタスクのラベル空間における異なる処理を除去することを提案する。
論文 参考訳(メタデータ) (2021-07-09T08:09:37Z) - Ranking the information content of distance measures [61.754016309475745]
2つの異なる距離測度を用いて保持する相対的情報を評価する統計的テストを導入する。
これにより、候補者のプールから最も情報に富んだ距離を測定することができる。
論文 参考訳(メタデータ) (2021-04-30T15:57:57Z) - UPB at SemEval-2021 Task 8: Extracting Semantic Information on
Measurements as Multi-Turn Question Answering [0.8315801422499861]
第8回SemEval-2021: Counts and Measurements(MeasEval)は、この方向の研究を促進することを目的としている。
参加者がモデルのトレーニングを行い、科学的テキストから測定に関する有意義な情報を抽出するデータセット。
我々の最高のパフォーマンスモデルは、テストセットで36.91%の重なり合うF1スコアを得た。
論文 参考訳(メタデータ) (2021-04-09T18:23:30Z) - Common Information Components Analysis [23.72210628652871]
我々は、カノニカル相関分析(CCA)の情報理論的解釈を与える。
CCAは2つの高次元データセットから、データセット間の共通性をキャプチャする低次元記述(機能)を抽出することができる。
我々の解釈はまず、あらかじめ選択された解像度レベルまで共通の情報を抽出し、各データセットに投影する。
論文 参考訳(メタデータ) (2020-02-03T14:31:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。