論文の概要: An Exploratory Study on Utilising the Web of Linked Data for Product
Data Mining
- arxiv url: http://arxiv.org/abs/2109.01411v1
- Date: Fri, 3 Sep 2021 09:58:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-06 18:39:21.670274
- Title: An Exploratory Study on Utilising the Web of Linked Data for Product
Data Mining
- Title(参考訳): 製品データマイニングにおけるリンクデータのWeb活用に関する探索的研究
- Authors: Ziqi Zhang, Xingyi Song
- Abstract要約: この研究は、構造化されたデータを利用して、製品分類とリンクに使用される言語リソースを作成する方法を研究するためのeコマース領域に焦点を当てている。
我々は、数億の構造化されたデータポイントをRDF n-quadsの形で処理し、後に言語リソースを作成するために3つの異なる方法で使用される製品関連コーパスの数十万ワードを作成します。
評価の結果,単語の埋め込みは両タスクの精度を向上させる上で最も信頼性が高く一貫した手法であることが示唆された。
- 参考スコア(独自算出の注目度): 3.7376948366228175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Linked Open Data practice has led to a significant growth of structured
data on the Web in the last decade. Such structured data describe real-world
entities in a machine-readable way, and have created an unprecedented
opportunity for research in the field of Natural Language Processing. However,
there is a lack of studies on how such data can be used, for what kind of
tasks, and to what extent they can be useful for these tasks. This work focuses
on the e-commerce domain to explore methods of utilising such structured data
to create language resources that may be used for product classification and
linking. We process billions of structured data points in the form of RDF
n-quads, to create multi-million words of product-related corpora that are
later used in three different ways for creating of language resources: training
word embedding models, continued pre-training of BERT-like language models, and
training Machine Translation models that are used as a proxy to generate
product-related keywords. Our evaluation on an extensive set of benchmarks
shows word embeddings to be the most reliable and consistent method to improve
the accuracy on both tasks (with up to 6.9 percentage points in macro-average
F1 on some datasets). The other two methods however, are not as useful. Our
analysis shows that this could be due to a number of reasons, including the
biased domain representation in the structured data and lack of vocabulary
coverage. We share our datasets and discuss how our lessons learned could be
taken forward to inform future research in this direction.
- Abstract(参考訳): Linked Open Dataのプラクティスは、過去10年でWeb上の構造化データの著しい増加につながりました。
このような構造化データは、実世界の実体を機械可読な方法で記述し、自然言語処理の分野で研究する前例のない機会を生み出した。
しかし、そのようなデータがどのように使われるか、どんな種類のタスクに使えるのか、どの程度これらのタスクに役に立つのか、といった研究が不足しています。
本研究は,eコマースの領域に着目し,そのような構造化データを活用して,製品分類やリンクに使用可能な言語リソースを作成する方法を検討する。
私たちは何十億もの構造化データポイントをrdf n-quad形式で処理し、製品関連コーパスの数百万の単語を作成し、後に言語リソースの作成に3つの異なる方法で使用される: 単語埋め込みモデルのトレーニング、bertライクな言語モデルの継続的な事前トレーニング、製品関連キーワードを生成するためのプロキシとして使用される機械翻訳モデルのトレーニング。
評価の結果,単語の埋め込みは2つのタスクの精度を最大6.9ポイント向上させる最も信頼性が高く一貫した手法であることが判明した(一部のデータセットではマクロ平均F1の6.9ポイント)。
しかし、他の2つの方法は役に立たない。
我々の分析によると、これは構造化データにおける偏りのあるドメイン表現や語彙カバレッジの欠如など、いくつかの理由による可能性がある。
私たちはデータセットを共有し、この方向の今後の研究にどのように役立つかについて議論します。
関連論文リスト
- Language Modeling on Tabular Data: A Survey of Foundations, Techniques and Evolution [7.681258910515419]
タブラルデータは、その異種の性質と複雑な構造的関係により、固有の課題を示す。
表型データ解析における高い予測性能とロバスト性は、多くのアプリケーションにとって大きな可能性を秘めている。
GPTやLLaMAといった最近の大規模言語モデルの出現はこの分野にさらなる革命をもたらし、最小限の微調整でより高度で多様なアプリケーションを容易にした。
論文 参考訳(メタデータ) (2024-08-20T04:59:19Z) - Query of CC: Unearthing Large Scale Domain-Specific Knowledge from
Public Corpora [104.16648246740543]
大規模言語モデルに基づく効率的なデータ収集手法を提案する。
この方法は、大きな言語モデルを通してシード情報をブートストラップし、公開コーパスから関連データを検索する。
特定のドメインに関する知識関連のデータを収集するだけでなく、潜在的な推論手順でデータを抽出する。
論文 参考訳(メタデータ) (2024-01-26T03:38:23Z) - Capture the Flag: Uncovering Data Insights with Large Language Models [90.47038584812925]
本研究では,Large Language Models (LLMs) を用いてデータの洞察の発見を自動化する可能性について検討する。
そこで本稿では,データセット内の意味的かつ関連する情報(フラグ)を識別する能力を測定するために,フラグを捕捉する原理に基づく新しい評価手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T14:20:06Z) - Faithful Low-Resource Data-to-Text Generation through Cycle Training [14.375070014155817]
近年,構造化データからテキストを生成する手法が大幅に進歩している。
サイクルトレーニングでは、互いに逆転する2つのモデルを使用する。
サイクルトレーニングが完全に教師付きアプローチとほぼ同等のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-05-24T06:44:42Z) - An Open Dataset and Model for Language Identification [84.15194457400253]
マクロ平均F1スコア0.93、偽陽性率0.033を201言語で達成するLIDモデルを提案する。
モデルとデータセットの両方を研究コミュニティに公開しています。
論文 参考訳(メタデータ) (2023-05-23T08:43:42Z) - What's in a Name? Evaluating Assembly-Part Semantic Knowledge in
Language Models through User-Provided Names in CAD Files [4.387757291346397]
本稿では,設計者がCAD(Computer Aided Design)ソフトウェアで使用する自然言語名が,そのような知識の貴重な情報源であることを示す。
特に、自然言語部分、特徴、文書名の大きなコーパスを抽出し、クリーンにする。
テキストデータコーパスの微調整により、すべてのタスクのパフォーマンスが向上し、テキストデータの価値が示されることを示す。
論文 参考訳(メタデータ) (2023-04-25T12:30:01Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - Annotated Dataset Creation through General Purpose Language Models for
non-English Medical NLP [0.5482532589225552]
我々の研究では、事前訓練された言語モデルをデータ取得のトレーニングに活用することを提案する。
我々は、ドイツのテキストであるGPTNERMEDの医療用NERモデルをトレーニングするために使用するカスタムデータセットを作成します。
論文 参考訳(メタデータ) (2022-08-30T18:42:55Z) - What Makes Data-to-Text Generation Hard for Pretrained Language Models? [17.07349898176898]
構造化された事実や関係(D2T)の自然言語記述を表現することで、構造化された知識リポジトリのアクセシビリティが向上する。
従来の研究は、タスク固有のトレーニングデータを大幅に微調整した後、事前学習された言語モデル(PLM)が、このタスクに対して驚くほどうまく機能していることを示している。
DARTマルチドメインD2Tデータセット上で、微調整と自動回帰PLMの両方について実証的研究を行う。
論文 参考訳(メタデータ) (2022-05-23T17:58:39Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - Learning to Synthesize Data for Semantic Parsing [57.190817162674875]
本稿では,プログラムの構成をモデル化し,プログラムを発話にマップする生成モデルを提案する。
PCFGと事前学習されたBARTの簡易性により,既存のデータから効率的に生成モデルを学習することができる。
GeoQuery と Spider の標準ベンチマークで解析する text-to-Query の in-domain と out-of-domain の両方で、この手法を評価します。
論文 参考訳(メタデータ) (2021-04-12T21:24:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。