論文の概要: Building Entity Association Mining Framework for Knowledge Discovery
- arxiv url: http://arxiv.org/abs/2506.01451v1
- Date: Mon, 02 Jun 2025 09:08:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.112989
- Title: Building Entity Association Mining Framework for Knowledge Discovery
- Title(参考訳): 知識発見のためのエンティティアソシエーションマイニングフレームワークの構築
- Authors: Anshika Rawal, Abhijeet Kumar, Mridul Mishra,
- Abstract要約: 実体や概念や関連採掘の相互作用を捉えることは、テキストマイニングにおいて重要な要素である。
文書フィルタリング(Document filtering)、様々なソース(または技術)をプラグインやアソシエーションマイニングとして利用し、テキストマイニングビジネスのユースケースを構築する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Extracting useful signals or pattern to support important business decisions for example analyzing investment product traction and discovering customer preference, risk monitoring etc. from unstructured text is a challenging task. Capturing interaction of entities or concepts and association mining is a crucial component in text mining, enabling information extraction and reasoning over and knowledge discovery from text. Furthermore, it can be used to enrich or filter knowledge graphs to guide exploration processes, descriptive analytics and uncover hidden stories in the text. In this paper, we introduce a domain independent pipeline i.e., generalized framework to enable document filtering, entity extraction using various sources (or techniques) as plug-ins and association mining to build any text mining business use-case and quantitatively define a scoring metric for ranking purpose. The proposed framework has three major components a) Document filtering: filtering documents/text of interest from massive amount of texts b) Configurable entity extraction pipeline: include entity extraction techniques i.e., i) DBpedia Spotlight, ii) Spacy NER, iii) Custom Entity Matcher, iv) Phrase extraction (or dictionary) based c) Association Relationship Mining: To generates co-occurrence graph to analyse potential relationships among entities, concepts. Further, co-occurrence count based frequency statistics provide a holistic window to observe association trends or buzz rate in specific business context. The paper demonstrates the usage of framework as fundamental building box in two financial use-cases namely brand product discovery and vendor risk monitoring. We aim that such framework will remove duplicated effort, minimize the development effort, and encourage reusability and rapid prototyping in association mining business applications for institutions.
- Abstract(参考訳): 例えば、投資商品のトラクションの分析や顧客の好みの発見、非構造化テキストからのリスク監視など、重要なビジネス上の決定を支援する有用な信号やパターンの抽出は、難しい作業である。
実体や概念、関連採掘の相互作用を捉えることは、テキストマイニングにおいて重要な要素であり、テキストから情報抽出と推論と知識発見を可能にする。
さらに、知識グラフを豊かにしたり、フィルターしたりして、探索プロセスのガイド、記述分析、テキスト内の隠れたストーリーの発見などにも使用することができる。
本稿では,文書フィルタリング,各種ソース(又は技術)を用いたエンティティ抽出をプラグインとして実現し,関連マイニングを行い,テキストマイニングビジネスのユースケースを構築し,ランキングのための評価基準を定量的に定義する,汎用的なフレームワークを提案する。
提案するフレームワークには3つの主要なコンポーネントがある
a) 文書フィルタリング:大量のテキストから文書・テキストをフィルタリングする
b) 構成可能なエンティティ抽出パイプライン: エンティティ抽出技術を含む。
i) DBpedia Spotlight
二 スペシーNER
三 カスタムエンティティマッチング装置
四 フレーズ抽出(又は辞書)に基づく関係マイニング:エンティティ、概念間の潜在的な関係を分析するための共起グラフを生成する。
さらに、共起数に基づく周波数統計は、特定のビジネスコンテキストにおける関連トレンドやバズレートを観察するための全体的窓を提供する。
本稿は、ブランド製品発見とベンダーリスク監視という2つの金融ユースケースにおいて、フレームワークを基本的なビルディングボックスとして使用することを実証する。
我々は、重複した努力を排除し、開発努力を最小化し、機関の関連鉱業アプリケーションにおける再利用性と迅速なプロトタイピングを促進することを目的としている。
関連論文リスト
- Knowledge Graph Completion with Relation-Aware Anchor Enhancement [50.50944396454757]
関係認識型アンカー強化知識グラフ補完法(RAA-KGC)を提案する。
まず、ヘッダーのリレーショナル・アウェア・エリア内でアンカー・エンティティを生成します。
次に、アンカーの近傍に埋め込まれたクエリを引っ張ることで、ターゲットのエンティティマッチングに対してより差別的になるように調整する。
論文 参考訳(メタデータ) (2025-04-08T15:22:08Z) - Automated Extraction and Creation of FBS Design Reasoning Knowledge Graphs from Structured Data in Product Catalogues Lacking Contextual Information [0.10840985826142427]
オントロジーに基づく知識グラフ(KG)は,様々な意思決定シナリオにおいて,効果的な知識管理と再利用が望ましい。
KGの自動抽出と生成に関するほとんどの研究は、広範囲な非構造化データセットに基づいている。
本研究は,このギャップに対処するために開発された手法とデジタルワークフローについて報告する。
論文 参考訳(メタデータ) (2024-12-08T09:20:25Z) - STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases [93.96463520716759]
テキストと知識ベースを用いた大規模半構造検索ベンチマークSTARKを開発した。
本ベンチマークでは, 製品検索, 学術論文検索, 精密医療におけるクエリの3分野について検討した。
多様なリレーショナル情報と複雑なテキスト特性を統合した,現実的なユーザクエリを合成する,新しいパイプラインを設計する。
論文 参考訳(メタデータ) (2024-04-19T22:54:54Z) - Learning to Extract Structured Entities Using Language Models [52.281701191329]
機械学習の最近の進歩は、情報抽出の分野に大きな影響を与えている。
タスクをエンティティ中心にすることで、さまざまなメトリクスの使用を可能にします。
我々は、Structured Entity extractを導入し、Adroximate Entity Set OverlaPメトリックを提案し、この分野にコントリビュートします。
論文 参考訳(メタデータ) (2024-02-06T22:15:09Z) - A Comprehensive Survey of Document-level Relation Extraction (2016-2023) [3.0204640945657326]
文書レベルの関係抽出(DocRE)は自然言語処理(NLP)研究の活発な領域である
本稿では,この分野における最近の進歩を包括的に概観し,文レベルの関係抽出と比較して,その適用方法の相違点を明らかにすることを目的とする。
論文 参考訳(メタデータ) (2023-09-28T12:43:32Z) - DocTr: Document Transformer for Structured Information Extraction in
Documents [36.1145541816468]
本稿では、視覚的にリッチな文書から構造化情報を取り出すための新しい定式化について述べる。
既存のIOBタグやグラフベースの定式化の制限に対処することを目的としている。
我々は、エンティティをアンカーワードとバウンディングボックスとして表現し、エンティティリンクをアンカーワードの関連付けとして表現する。
論文 参考訳(メタデータ) (2023-07-16T02:59:30Z) - Enriching Relation Extraction with OpenIE [70.52564277675056]
関係抽出(RE)は情報抽出(IE)のサブ分野である
本稿では,オープン情報抽出(OpenIE)の最近の取り組みがREの課題の改善にどのように役立つかを検討する。
本稿では,2つの注釈付きコーパスであるKnowledgeNetとFewRelを用いた実験により,拡張モデルの精度向上を実証した。
論文 参考訳(メタデータ) (2022-12-19T11:26:23Z) - ReSel: N-ary Relation Extraction from Scientific Text and Tables by
Learning to Retrieve and Select [53.071352033539526]
学術論文からN-ary関係を抽出する問題について考察する。
提案手法であるReSelは,このタスクを2段階のプロシージャに分解する。
3つの科学的情報抽出データセットに対する実験により、ReSelは最先端のベースラインを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2022-10-26T02:28:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。