論文の概要: A Hybrid AI Methodology for Generating Ontologies of Research Topics from Scientific Paper Corpora
- arxiv url: http://arxiv.org/abs/2508.04213v1
- Date: Wed, 06 Aug 2025 08:48:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.636619
- Title: A Hybrid AI Methodology for Generating Ontologies of Research Topics from Scientific Paper Corpora
- Title(参考訳): 論文コーパスによる研究トピックのオントロジー生成のためのハイブリッドAI手法
- Authors: Alessia Pisu, Livio Pompianu, Francesco Osborne, Diego Reforgiato Recupero, Daniele Riboni, Angelo Salatino,
- Abstract要約: Sci-OGは研究トピックを生成するための半自動的な方法論である。
本稿では,研究トピックを生成するための半自動設計手法であるSci-OGを提案する。
提案手法は,21,649件の注釈付きセマンティック・トリプルのデータセットを用いて,様々な代替ソリューションに対して評価する。
- 参考スコア(独自算出の注目度): 6.384357773998868
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Taxonomies and ontologies of research topics (e.g., MeSH, UMLS, CSO, NLM) play a central role in providing the primary framework through which intelligent systems can explore and interpret the literature. However, these resources have traditionally been manually curated, a process that is time-consuming, prone to obsolescence, and limited in granularity. This paper presents Sci-OG, a semi-auto\-mated methodology for generating research topic ontologies, employing a multi-step approach: 1) Topic Discovery, extracting potential topics from research papers; 2) Relationship Classification, determining semantic relationships between topic pairs; and 3) Ontology Construction, refining and organizing topics into a structured ontology. The relationship classification component, which constitutes the core of the system, integrates an encoder-based language model with features describing topic occurrence in the scientific literature. We evaluate this approach against a range of alternative solutions using a dataset of 21,649 manually annotated semantic triples. Our method achieves the highest F1 score (0.951), surpassing various competing approaches, including a fine-tuned SciBERT model and several LLM baselines, such as the fine-tuned GPT4-mini. Our work is corroborated by a use case which illustrates the practical application of our system to extend the CSO ontology in the area of cybersecurity. The presented solution is designed to improve the accessibility, organization, and analysis of scientific knowledge, thereby supporting advancements in AI-enabled literature management and research exploration.
- Abstract(参考訳): 研究トピック(例えば、MeSH、UMLS、CSO、NLM)の分類学とオントロジーは、インテリジェントシステムが文献を探索し解釈できる主要なフレームワークを提供する上で、中心的な役割を果たす。
しかし、これらの資源は伝統的に手作業でキュレートされ、時間のかかるプロセスであり、不溶化の傾向があり、粒度が制限されている。
本稿では,多段階的アプローチを用いて,研究トピックオントロジーを生成する半自動最適化手法であるSci-OGを提案する。
1) 研究論文から潜在的な話題を抽出する話題発見
2)関係分類,トピックペア間の意味的関係の決定,及び
3 オントロジーの構築、精錬及び組織化を構成オントロジーとする。
システムの中核を構成する関係分類コンポーネントは、エンコーダベースの言語モデルと、科学文献における話題の発生を記述した特徴を統合している。
提案手法は,21,649件の注釈付きセマンティック・トリプルのデータセットを用いて,様々な代替ソリューションに対して評価する。
提案手法は,細調整されたSciBERTモデルや細調整されたGPT4-miniなどのLCMベースラインなど,様々な競合するアプローチを超越したF1スコア(0.951)を達成する。
我々の研究は、サイバーセキュリティの領域でCSOオントロジーを拡張するために、我々のシステムの実用的応用を示すユースケースによって裏付けられている。
提示されたソリューションは、科学知識のアクセシビリティ、組織、分析を改善し、AI対応の文献管理と研究調査の進歩を支援するように設計されている。
関連論文リスト
- A Vision for Auto Research with LLM Agents [46.95148319863236]
本稿では,科学研究の全ライフサイクルの自動化,コーディネート,最適化を目的とした構造化マルチエージェントフレームワークであるエージェントベースオートリサーチを紹介する。
このシステムは、文献レビュー、アイデア、方法論、実験、論文執筆、査読応答、普及など、すべての主要な研究段階にまたがる。
論文 参考訳(メタデータ) (2025-04-26T02:06:10Z) - Evaluating LLM-based Agents for Multi-Turn Conversations: A Survey [64.08485471150486]
本研究では,大規模言語モデル(LLM)に基づくマルチターン対話環境におけるエージェントの評価手法について検討する。
我々は250近い学術資料を体系的にレビューし、様々な出版場所から芸術の状態を捉えた。
論文 参考訳(メタデータ) (2025-03-28T14:08:40Z) - A Socratic RAG Approach to Connect Natural Language Queries on Research Topics with Knowledge Organization Systems [0.3782392304044599]
本稿では,研究トピックに関する自然言語クエリを機械で解釈可能なセマンティックエンティティにマッピングするRAG(Retrieval Augmented Generation)エージェントを提案する。
我々のアプローチは、RAGとソクラティック対話を組み合わせることで、ユーザの研究トピックに対する直感的な理解と、確立した知識組織システムとを整合させる。
論文 参考訳(メタデータ) (2025-02-20T19:58:59Z) - Large Language Models for Scholarly Ontology Generation: An Extensive Analysis in the Engineering Field [0.0]
本稿では,異なる研究トピック間の意味的関係を識別する大規模モデルの能力について分析する。
我々はそのタスクを評価するためにIEEE Thesaurusに基づく金の標準を開発した。
Mixtral-8x7B、Dolphin-Mistral、Claude 3-7Bなど、いくつかの優れた結果が得られた。
論文 参考訳(メタデータ) (2024-12-11T10:11:41Z) - Automating Intervention Discovery from Scientific Literature: A Progressive Ontology Prompting and Dual-LLM Framework [56.858564736806414]
本稿では,大規模言語モデル(LLM)を利用した科学文献の介入の同定手法を提案する。
言語病理領域における64,177論文のコーパスから,2,421件の介入が得られた。
論文 参考訳(メタデータ) (2024-08-20T16:42:23Z) - Retrieval-Enhanced Machine Learning: Synthesis and Opportunities [60.34182805429511]
検索エンハンスメントは機械学習(ML)の幅広い範囲に拡張できる
この研究は、MLの様々な領域の文献を、現在の文献から欠落している一貫した表記で合成することで、このパラダイムの正式なフレームワークであるRetrieval-Enhanced Machine Learning (REML)を導入する。
本研究の目的は、様々な分野の研究者に対して、検索強化モデルの包括的、正式に構造化された枠組みを付与し、学際的な将来の研究を促進することである。
論文 参考訳(メタデータ) (2024-07-17T20:01:21Z) - Ontology Embedding: A Survey of Methods, Applications and Resources [54.3453925775069]
オンロジはドメインの知識とメタデータを表現するために広く使われている。
直接支援できる論理的推論は、学習、近似、予測において非常に限られています。
1つの簡単な解決策は、統計分析と機械学習を統合することである。
論文 参考訳(メタデータ) (2024-06-16T14:49:19Z) - Knowledge-Aware Bayesian Deep Topic Model [50.58975785318575]
本稿では,事前知識を階層型トピックモデリングに組み込むベイズ生成モデルを提案する。
提案モデルでは,事前知識を効率的に統合し,階層的なトピック発見と文書表現の両面を改善する。
論文 参考訳(メタデータ) (2022-09-20T09:16:05Z) - The CSO Classifier: Ontology-Driven Detection of Research Topics in
Scholarly Articles [0.0]
コンピュータサイエンスオントロジー(CSO)に基づく研究論文の自動分類のための新しい教師なしアプローチを紹介します。
CSOは、研究論文(タイトル、抽象、キーワード)に関連するメタデータを入力として取り、オントロジーから引き出された研究概念の選択を返します。
このアプローチは、手作業による注釈付き記事のゴールドスタンダードで評価され、代替方法よりも大幅に改善されました。
論文 参考訳(メタデータ) (2021-04-02T09:02:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。