論文の概要: LLM-based Triplet Extraction for Automated Ontology Generation in Software Engineering Standards
- arxiv url: http://arxiv.org/abs/2509.00140v1
- Date: Fri, 29 Aug 2025 17:14:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.101785
- Title: LLM-based Triplet Extraction for Automated Ontology Generation in Software Engineering Standards
- Title(参考訳): LLMによるソフトウェア工学標準におけるオントロジー自動生成のためのトリプレット抽出
- Authors: Songhui Yue,
- Abstract要約: ソフトウェアエンジニアリング標準(SES)は、長い、構造化されていないテキスト(高いノイズを伴う)とドメイン固有の用語の段落から構成される。
本研究では,オープンソースの大規模言語モデル (LLM) を用いたSESのためのRTEアプローチを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ontologies have supported knowledge representation and whitebox reasoning for decades; thus, the automated ontology generation (AOG) plays a crucial role in scaling their use. Software engineering standards (SES) consist of long, unstructured text (with high noise) and paragraphs with domain-specific terms. In this setting, relation triple extraction (RTE), together with term extraction, constitutes the first stage toward AOG. This work proposes an open-source large language model (LLM)-assisted approach to RTE for SES. Instead of solely relying on prompt-engineering-based methods, this study promotes the use of LLMs as an aid in constructing ontologies and explores an effective AOG workflow that includes document segmentation, candidate term mining, LLM-based relation inference, term normalization, and cross-section alignment. Golden-standard benchmarks at three granularities are constructed and used to evaluate the ontology generated from the study. The results show that it is comparable and potentially superior to the OpenIE method of triple extraction.
- Abstract(参考訳): オントロジーは知識表現とホワイトボックス推論を何十年も支持してきたので、自動オントロジー生成(AOG)はその使用を拡大する上で重要な役割を担っている。
ソフトウェアエンジニアリング標準(SES)は、長い、構造化されていないテキスト(高いノイズを伴う)とドメイン固有の用語の段落から構成される。
この設定では、関係三重抽出(RTE)と項抽出がAOGに向けた第1段階を構成する。
本研究では,オープンソースの大規模言語モデル (LLM) を用いたSESのためのRTEアプローチを提案する。
本研究は, プロンプトエンジニアリングに基づく手法にのみ依存するのではなく, オントロジー構築の支援としてLLMの利用を促進し, 文書セグメンテーション, 候補項マイニング, LLMに基づく関係推論, 項正規化, 断面アライメントを含む効果的なAOGワークフローを探索する。
3つの粒度のゴールデンスタンダードベンチマークを構築し、その研究から生成されたオントロジーを評価する。
その結果、三重抽出のOpenIE法と同等であり、潜在的に優れていることが示された。
関連論文リスト
- Arce: Augmented Roberta with Contextualized Elucidations for Ner in Automated Rule Checking [5.783497520591236]
ARCE(Augmented RoBERTa with contextualized elucidations)は、この生成プロセスを体系的に探索し最適化する新しいアプローチである。
ARCEはベンチマークAECデータセットに新たな最先端技術を確立し、マクロF1スコアは77.20%に達した。
シンプルで説明に基づく知識は、このタスクの複雑なロールベースの論理よりも驚くほど効果的であることが証明されます。
論文 参考訳(メタデータ) (2025-08-10T10:49:48Z) - Retrieval Augmented Generation for Topic Modeling in Organizational Research: An Introduction with Empirical Demonstration [0.0]
本稿では,LLMを用いたトピックモデリング手法として,エージェント検索拡張生成(Agentic RAG)を提案する。
1) LLM の事前訓練された知識を超えた外部データへの自動アクセスを可能にする検索,(2) LLM の機能を利用してテキスト合成を行う生成,(3) エージェント駆動学習, 反復的に検索とクエリの定式化を行う。
本研究は,本手法がより効率的で解釈可能であり,同時に,従来の機械学習手法と比較して信頼性と妥当性が向上することを示した。
論文 参考訳(メタデータ) (2025-02-28T11:25:11Z) - Automating Intervention Discovery from Scientific Literature: A Progressive Ontology Prompting and Dual-LLM Framework [56.858564736806414]
本稿では,大規模言語モデル(LLM)を利用した科学文献の介入の同定手法を提案する。
言語病理領域における64,177論文のコーパスから,2,421件の介入が得られた。
論文 参考訳(メタデータ) (2024-08-20T16:42:23Z) - Integrating Ontology Design with the CRISP-DM in the context of Cyber-Physical Systems Maintenance [41.85920785319125]
提案手法は3つの段階に分けられる。
フェーズ1では、オントロジーの要件を体系的に指定し、関連する知識範囲を定義する。
フェーズ2では、CPSライフサイクルデータは、ドメイン固有のオントロジアーティファクトを使用してコンテキスト化される。
この形式化されたドメイン知識は、データマイニングのためのクロス産業標準プロセス(CRISP-DM)で利用され、データから新しい洞察を効率的に抽出する。
論文 参考訳(メタデータ) (2024-07-09T15:06:47Z) - Extract, Define, Canonicalize: An LLM-based Framework for Knowledge Graph Construction [12.455647753787442]
抽出・デファイン・カノニケーズ(EDC)という3相フレームワークを提案する。
EDCはフレキシブルで、事前に定義されたターゲットスキーマが利用可能で、そうでない場合に適用される。
EDCがパラメータチューニングなしで高品質な三重項を抽出できることを実証する。
論文 参考訳(メタデータ) (2024-04-05T02:53:51Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - Knowledge Plugins: Enhancing Large Language Models for Domain-Specific
Recommendations [50.81844184210381]
本稿では,大規模言語モデルをDOmain固有のKnowledgEで拡張し,実践的アプリケーション,すなわちDOKEの性能を向上させるためのパラダイムを提案する。
このパラダイムはドメイン知識抽出器に依存し,1)タスクに効果的な知識を準備すること,2)特定のサンプルごとに知識を選択すること,3)LLMで理解可能な方法で知識を表現すること,の3つのステップで動作する。
論文 参考訳(メタデータ) (2023-11-16T07:09:38Z) - Pre-trained Language Models for Keyphrase Generation: A Thorough
Empirical Study [76.52997424694767]
事前学習言語モデルを用いて,キーフレーズ抽出とキーフレーズ生成の詳細な実験を行った。
PLMは、競争力のある高リソース性能と最先端の低リソース性能を持つことを示す。
さらに,領域内のBERTライクなPLMを用いて,強大かつデータ効率のよいキーフレーズ生成モデルを構築できることが示唆された。
論文 参考訳(メタデータ) (2022-12-20T13:20:21Z) - Modeling Multi-Granularity Hierarchical Features for Relation Extraction [26.852869800344813]
本稿では,原文のみに基づく多粒度特徴抽出手法を提案する。
外部知識を必要とせずに,効果的な構造的特徴が達成可能であることを示す。
論文 参考訳(メタデータ) (2022-04-09T09:44:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。