論文の概要: Automated Knowledge Graph Construction using Large Language Models and Sentence Complexity Modelling
- arxiv url: http://arxiv.org/abs/2509.17289v1
- Date: Mon, 22 Sep 2025 00:01:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.202114
- Title: Automated Knowledge Graph Construction using Large Language Models and Sentence Complexity Modelling
- Title(参考訳): 大規模言語モデルと文複雑度モデルを用いた知識グラフの自動構築
- Authors: Sydney Anuyah, Mehedi Mahmud Kaushik, Krishna Dwarampudi, Rakesh Shiradkar, Arjan Durresi, Sunandan Chakraborty,
- Abstract要約: 文レベルの知識グラフを抽出するエンドツーエンドパイプラインであるCoDe-KGを導入する。
オープンソースである15万以上のナレッジトリプルのデータセットをコントリビュートしています。
提案手法は, 文章の簡潔化において, 正解精度が99.8%まで向上することが示唆された。
- 参考スコア(独自算出の注目度): 0.39089069256361736
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce CoDe-KG, an open-source, end-to-end pipeline for extracting sentence-level knowledge graphs by combining robust coreference resolution with syntactic sentence decomposition. Using our model, we contribute a dataset of over 150,000 knowledge triples, which is open source. We also contribute a training corpus of 7248 rows for sentence complexity, 190 rows of gold human annotations for co-reference resolution using open source lung-cancer abstracts from PubMed, 900 rows of gold human annotations for sentence conversion policies, and 398 triples of gold human annotations. We systematically select optimal prompt-model pairs across five complexity categories, showing that hybrid chain-of-thought and few-shot prompting yields up to 99.8% exact-match accuracy on sentence simplification. On relation extraction (RE), our pipeline achieves 65.8% macro-F1 on REBEL, an 8-point gain over the prior state of the art, and 75.7% micro-F1 on WebNLG2, while matching or exceeding performance on Wiki-NRE and CaRB. Ablation studies demonstrate that integrating coreference and decomposition increases recall on rare relations by over 20%. Code and dataset are available at https://github.com/KaushikMahmud/CoDe-KG_EMNLP_2025
- Abstract(参考訳): 文レベルの知識グラフを抽出するためのオープンソースのエンドツーエンドパイプラインであるCoDe-KGを,頑健なコア参照分解と構文的文分解を組み合わせて導入する。
私たちのモデルを使って、オープンソースである15万以上の知識3倍のデータセットをコントリビュートします。
また,7248行の文複雑度トレーニングコーパス,PubMedのオープンソース肺がん抽象化を用いたゴールド・ヒューマン・アノテーション190行,文章変換ポリシー900行,ゴールド・ヒューマン・アノテーション398行をコントリビュートした。
5つの複雑性カテゴリにまたがる最適なプロンプトモデルペアを体系的に選択し、ハイブリッドチェーンと少数ショットのプロンプトが、文の単純化において99.8%の精度で得られることを示す。
関係抽出(RE)では,REBELで65.8%,先行技術で8ポイント,WebNLG2で75.7%,Wiki-NREとCaRBで75.7%のマクロF1を達成した。
アブレーション研究では、コア参照と分解を統合することで、レアリレーションのリコールが20%以上増加することが示されている。
コードとデータセットはhttps://github.com/KaushikMahmud/CoDe-KG_EMNLP_2025で公開されている。
関連論文リスト
- A Query-Aware Multi-Path Knowledge Graph Fusion Approach for Enhancing Retrieval-Augmented Generation in Large Language Models [3.0748861313823]
QMKGFはクエリ対応マルチパス知識グラフフュージョンアプローチであり、検索拡張生成を促進する。
我々はプロンプトテンプレートを設計し、汎用LLMを用いてエンティティや関係を抽出する。
本稿では, ワンホップ関係, マルチホップ関係, 重要度に基づく関係を組み込んだマルチパスサブグラフ構築戦略を提案する。
論文 参考訳(メタデータ) (2025-07-07T02:22:54Z) - MonkeyOCR: Document Parsing with a Structure-Recognition-Relation Triplet Paradigm [60.14048367611333]
MonkeyOCRはドキュメント解析のためのビジョン言語モデルである。
SRR(Structure-Recognition-Relation)三重項パラダイムを活用することで、最先端の技術の進歩を図っている。
論文 参考訳(メタデータ) (2025-06-05T16:34:57Z) - Optimized Text Embedding Models and Benchmarks for Amharic Passage Retrieval [49.1574468325115]
トレーニング済みのAmharic BERTとRoBERTaのバックボーンをベースとした,Amharic固有の高密度検索モデルを提案する。
提案したRoBERTa-Base-Amharic-Embedモデル(110Mパラメータ)は,MRR@10の相対的な改善を17.6%達成する。
RoBERTa-Medium-Amharic-Embed (42M)のようなよりコンパクトな派生型は13倍以上小さいまま競争力を維持している。
論文 参考訳(メタデータ) (2025-05-25T23:06:20Z) - QuaLLM-Health: An Adaptation of an LLM-Based Framework for Quantitative Data Extraction from Online Health Discussions [30.089810404792]
本報告では,QuaLLMからQuaLLM-Healthに適応したフレームワークを用いて,非構造化テキストから臨床的に関連のある定量的データを抽出する。
2024年7月にReddit APIを使って5つのGLP-1関連コミュニティから410万の投稿とコメントを収集しました。
フレームワークを完全なデータセットに適用することで、下流分析に必要な変数の効率的な抽出が可能になった。
論文 参考訳(メタデータ) (2024-11-27T00:52:21Z) - Text-Driven Neural Collaborative Filtering Model for Paper Source Tracing [1.124958340749622]
PST(Paper Source Tracing)タスクは、与えられた学術論文に対する重要な参照の識別を自動化することを目的としている。
このフレームワークでは、最終的な予測を生成するために、Neural Collaborative Filtering(NCF)モデルを採用している。
本手法は平均精度(MAP)測定値で0.37814のスコアを達成し,ベースラインモデルを上回っ,全参加チームで11位となった。
論文 参考訳(メタデータ) (2024-07-25T02:48:56Z) - RGAT: A Deeper Look into Syntactic Dependency Information for
Coreference Resolution [8.017036537163008]
我々は、事前学習されたBERTと構文関係グラフ注意ネットワーク(RGAT)を組み合わせたエンドツーエンドの解決法を提案する。
特に、RGATモデルが最初に提案され、次に、構文依存グラフを理解し、より優れたタスク固有の構文埋め込みを学ぶために使用される。
BERT埋め込みと構文埋め込みを組み合わせた統合アーキテクチャを構築し、下流タスクのブレンディング表現を生成する。
論文 参考訳(メタデータ) (2023-09-10T09:46:38Z) - HIORE: Leveraging High-order Interactions for Unified Entity Relation
Extraction [85.80317530027212]
本稿では,統合エンティティ関係抽出のための新しい手法であるHIOREを提案する。
重要な洞察は、単語ペア間の複雑な関連を活用することである。
実験の結果,HIOREは従来最高の統一モデルよりも1.11.8 F1ポイント向上した。
論文 参考訳(メタデータ) (2023-05-07T14:57:42Z) - Enriching Relation Extraction with OpenIE [70.52564277675056]
関係抽出(RE)は情報抽出(IE)のサブ分野である
本稿では,オープン情報抽出(OpenIE)の最近の取り組みがREの課題の改善にどのように役立つかを検討する。
本稿では,2つの注釈付きコーパスであるKnowledgeNetとFewRelを用いた実験により,拡張モデルの精度向上を実証した。
論文 参考訳(メタデータ) (2022-12-19T11:26:23Z) - Query Expansion Using Contextual Clue Sampling with Language Models [69.51976926838232]
本稿では,実効的なフィルタリング戦略と検索した文書の融合の組み合わせを,各文脈の生成確率に基づいて提案する。
我々の語彙マッチングに基づくアプローチは、よく確立された高密度検索モデルDPRと比較して、同様のトップ5/トップ20検索精度と上位100検索精度を実現する。
エンド・ツー・エンドのQAでは、読者モデルも我々の手法の恩恵を受けており、いくつかの競争基準に対してエクサクト・マッチのスコアが最も高い。
論文 参考訳(メタデータ) (2022-10-13T15:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。