論文の概要: Triplètoile: Extraction of Knowledge from Microblogging Text
- arxiv url: http://arxiv.org/abs/2408.14908v1
- Date: Tue, 27 Aug 2024 09:35:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 14:23:37.067590
- Title: Triplètoile: Extraction of Knowledge from Microblogging Text
- Title(参考訳): Triplètoile: マイクロブログテキストからの知識の抽出
- Authors: Vanni Zavarella, Sergio Consoli, Diego Reforgiato Recupero, Gianni Fenu, Simone Angioni, Davide Buscaldi, Danilo Dessì, Francesco Osborne,
- Abstract要約: ソーシャルメディアプラットフォーム上でのマイクロブログ投稿からオープンドメインエンティティを含む知識グラフの抽出に適した情報抽出パイプラインを提案する。
我々のパイプラインは、単語の埋め込みに対する階層的クラスタリングを通じて、依存関係解析を活用し、教師なしの方法でエンティティ関係を分類する。
本稿では,デジタルトランスフォーメーションに関する1万ツイートのコーパスからセマンティック・トリプルを抽出し,生成した知識グラフを公開するユースケースを提案する。
- 参考スコア(独自算出の注目度): 7.848242781280095
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Numerous methods and pipelines have recently emerged for the automatic extraction of knowledge graphs from documents such as scientific publications and patents. However, adapting these methods to incorporate alternative text sources like micro-blogging posts and news has proven challenging as they struggle to model open-domain entities and relations, typically found in these sources. In this paper, we propose an enhanced information extraction pipeline tailored to the extraction of a knowledge graph comprising open-domain entities from micro-blogging posts on social media platforms. Our pipeline leverages dependency parsing and classifies entity relations in an unsupervised manner through hierarchical clustering over word embeddings. We provide a use case on extracting semantic triples from a corpus of 100 thousand tweets about digital transformation and publicly release the generated knowledge graph. On the same dataset, we conduct two experimental evaluations, showing that the system produces triples with precision over 95% and outperforms similar pipelines of around 5% in terms of precision, while generating a comparatively higher number of triples.
- Abstract(参考訳): 近年,学術出版物や特許などの資料から知識グラフを自動的に抽出する手法やパイプラインが多数出現している。
しかし、マイクロブログ投稿やニュースなどの代替テキストソースを組み込むためにこれらの手法を適用することは、一般にこれらのソースに見られるオープンドメインエンティティや関係のモデル化に苦慮しているため、難しいことが証明されている。
本稿では,ソーシャルメディアプラットフォーム上のマイクロブログ投稿からオープンドメインエンティティを含む知識グラフの抽出に適した情報抽出パイプラインを提案する。
我々のパイプラインは、単語の埋め込みに対する階層的クラスタリングを通じて、依存関係解析を活用し、教師なしの方法でエンティティ関係を分類する。
本稿では,デジタルトランスフォーメーションに関する1万ツイートのコーパスからセマンティック・トリプルを抽出し,生成した知識グラフを公開するユースケースを提案する。
同じデータセット上で、2つの実験的な評価を行い、システムは95%以上の精度でトリプルを生成し、類似のパイプラインを約5%の精度で上回りながら、比較的多くのトリプルを生成することを示した。
関連論文リスト
- Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。
本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。
次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文 参考訳(メタデータ) (2024-03-27T15:15:14Z) - Consistency Guided Knowledge Retrieval and Denoising in LLMs for
Zero-shot Document-level Relation Triplet Extraction [43.50683283748675]
文書レベルの関係トリプルト抽出(DocRTE)は、文書から意味的関係を持つエンティティを同時に抽出することを目的とした情報システムの基本課題である。
既存の手法は、かなりの量の完全なラベル付きデータに依存している。
ChatGPTやLLaMAのような最近の先進言語モデル(LLM)は、素晴らしい長文生成能力を示している。
論文 参考訳(メタデータ) (2024-01-24T17:04:28Z) - Article Classification with Graph Neural Networks and Multigraphs [0.12499537119440243]
単純なグラフニューラルネットワーク(GNN)パイプラインを多グラフ表現で拡張することにより,記事分類の性能を向上させる手法を提案する。
完全に教師されたトランスダクティブノード分類実験は、Open Graph Benchmark OGBN-arXivデータセットとPubMed糖尿病データセットで実施されている。
その結果、マルチグラフはデフォルトグラフと比較して、様々なGNNモデルの性能を一貫して改善することを示した。
論文 参考訳(メタデータ) (2023-09-20T14:18:04Z) - ProVe: A Pipeline for Automated Provenance Verification of Knowledge
Graphs against Textual Sources [5.161088104035106]
ProVeはパイプライン化されたアプローチで、Knowledge Graphのトリプルが、文書化された成果から抽出されたテキストによってサポートされているかどうかを自動的に検証する。
ProVeはWikidataデータセットで評価され、期待できる結果が全体として達成され、証明からサポートを検出するバイナリ分類タスクにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-10-26T16:47:36Z) - Walk-and-Relate: A Random-Walk-based Algorithm for Representation
Learning on Sparse Knowledge Graphs [5.444459446244819]
本稿では,データ空間の問題に対処するため,三重項数を増加させる効率的な方法を提案する。
また,メタパスの集合から情報的メタパスを高精度かつ効率的に抽出する手法も提案する。
提案したアプローチはモデルに依存しず、拡張トレーニングデータセットは、任意のKG埋め込みアプローチを最初から使用することができる。
論文 参考訳(メタデータ) (2022-09-19T05:35:23Z) - Repurposing Knowledge Graph Embeddings for Triple Representation via
Weak Supervision [77.34726150561087]
現在の方法では、事前訓練されたモデルからの実体と述語埋め込みを使わずに、スクラッチから三重埋め込みを学習する。
本研究では,知識グラフからトリプルを自動抽出し,事前学習した埋め込みモデルからそれらのペアの類似性を推定する手法を開発した。
これらのペアの類似度スコアは、細い三重表現のためにシームズ様のニューラルネットワークに供給される。
論文 参考訳(メタデータ) (2022-08-22T14:07:08Z) - Modeling Multi-Granularity Hierarchical Features for Relation Extraction [26.852869800344813]
本稿では,原文のみに基づく多粒度特徴抽出手法を提案する。
外部知識を必要とせずに,効果的な構造的特徴が達成可能であることを示す。
論文 参考訳(メタデータ) (2022-04-09T09:44:05Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - Rethinking Text Line Recognition Models [57.47147190119394]
2つのデコーダファミリー(コネクショニスト時間分類と変換器)と3つのエンコーダモジュール(双方向LSTM、自己認識、GRCL)を考える。
広く使用されているシーンと手書きテキストの公開データセットの精度とパフォーマンスを比較します。
より一般的なTransformerベースのモデルとは異なり、このアーキテクチャは任意の長さの入力を処理できる。
論文 参考訳(メタデータ) (2021-04-15T21:43:13Z) - ENT-DESC: Entity Description Generation by Exploring Knowledge Graph [53.03778194567752]
実際には、出力記述が最も重要な知識のみをカバーするため、入力知識は十分以上である可能性がある。
我々は、KG-to-textにおけるこのような実践的なシナリオの研究を容易にするために、大規模で挑戦的なデータセットを導入する。
本稿では,元のグラフ情報をより包括的に表現できるマルチグラフ構造を提案する。
論文 参考訳(メタデータ) (2020-04-30T14:16:19Z) - Heterogeneous Graph Neural Networks for Extractive Document
Summarization [101.17980994606836]
クロス文関係は、抽出文書要約における重要なステップである。
We present a graph-based neural network for extractive summarization (HeterSumGraph)
抽出文書要約のためのグラフベースニューラルネットワークに異なる種類のノードを導入する。
論文 参考訳(メタデータ) (2020-04-26T14:38:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。