論文の概要: Intelligent Scientific Literature Explorer using Machine Learning (ISLE)
- arxiv url: http://arxiv.org/abs/2512.12760v1
- Date: Sun, 14 Dec 2025 16:54:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.422954
- Title: Intelligent Scientific Literature Explorer using Machine Learning (ISLE)
- Title(参考訳): 機械学習(ISLE)を用いた知能科学文献エクスプローラ
- Authors: Sina Jani, Arman Heidari, Amirmohammad Anvari, Zahra Rahimi,
- Abstract要約: 本稿では,大規模データ取得,ハイブリッド検索,セマンティックトピックモデリング,異種知識グラフ構築を組み合わせた科学文献探索システムを提案する。
提案するフレームワークは,AIによる科学的発見の基盤となる。
- 参考スコア(独自算出の注目度): 0.797970449705065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid acceleration of scientific publishing has created substantial challenges for researchers attempting to discover, contextualize, and interpret relevant literature. Traditional keyword-based search systems provide limited semantic understanding, while existing AI-driven tools typically focus on isolated tasks such as retrieval, clustering, or bibliometric visualization. This paper presents an integrated system for scientific literature exploration that combines large-scale data acquisition, hybrid retrieval, semantic topic modeling, and heterogeneous knowledge graph construction. The system builds a comprehensive corpus by merging full-text data from arXiv with structured metadata from OpenAlex. A hybrid retrieval architecture fuses BM25 lexical search with embedding-based semantic search using Reciprocal Rank Fusion. Topic modeling is performed on retrieved results using BERTopic or non-negative matrix factorization depending on computational resources. A knowledge graph unifies papers, authors, institutions, countries, and extracted topics into an interpretable structure. The system provides a multi-layered exploration environment that reveals not only relevant publications but also the conceptual and relational landscape surrounding a query. Evaluation across multiple queries demonstrates improvements in retrieval relevance, topic coherence, and interpretability. The proposed framework contributes an extensible foundation for AI-assisted scientific discovery.
- Abstract(参考訳): 科学出版の急速な加速は、研究者が関連する文献を発見し、文脈化し、解釈しようとする研究者にとって重大な課題を生み出している。
従来のキーワードベースの検索システムは、セマンティック理解が限定的であるのに対して、既存のAI駆動のツールは、検索、クラスタリング、バイオメトリック可視化などの独立したタスクに重点を置いている。
本稿では,大規模データ取得,ハイブリッド検索,セマンティックトピックモデリング,異種知識グラフ構築を組み合わせた科学文献探索システムを提案する。
このシステムは、arXivのフルテキストデータとOpenAlexの構造化メタデータを組み合わせることで、包括的なコーパスを構築する。
ハイブリッド検索アーキテクチャは、BM25語彙探索と相互ランクフュージョンを用いた埋め込み型セマンティックサーチを融合する。
BERTopicまたは非負行列分解を用いた検索結果に対して、計算資源に依存してトピックモデリングを行う。
知識グラフは、論文、著者、機関、国、抽出されたトピックを解釈可能な構造に統一する。
このシステムは、関連する出版物だけでなく、クエリを取り巻く概念的および関係的な景観を明らかにする多層探索環境を提供する。
複数のクエリに対する評価では、検索関連性、トピックコヒーレンス、解釈可能性が改善されている。
提案するフレームワークは,AIによる科学的発見のための拡張可能な基盤を提供する。
関連論文リスト
- Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。
現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。
Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文 参考訳(メタデータ) (2025-10-17T02:33:16Z) - Cross-Granularity Hypergraph Retrieval-Augmented Generation for Multi-hop Question Answering [49.43814054718318]
マルチホップ質問応答 (MHQA) は、正しい回答を得るために複数の経路に散在する知識を統合する必要がある。
従来の検索拡張生成法(RAG)は主に粗い粒度のテキスト意味的類似性に焦点を当てている。
本稿では,HGRAG for MHQAという新しいRAG手法を提案する。
論文 参考訳(メタデータ) (2025-08-15T06:36:13Z) - HySemRAG: A Hybrid Semantic Retrieval-Augmented Generation Framework for Automated Literature Synthesis and Methodological Gap Analysis [55.2480439325792]
HySemRAGは、Extract, Transform, Load (ETL)パイプラインとRetrieval-Augmented Generation (RAG)を組み合わせたフレームワークである。
システムは、マルチ層アプローチを通じて既存のRAGアーキテクチャの制限に対処する。
論文 参考訳(メタデータ) (2025-08-01T20:30:42Z) - OnSET: Ontology and Semantic Exploration Toolkit [5.1293983340834055]
セマンティック・システム、オントロジー・探索ツールキット(OnSET)を提案する。
OnSETを使うと、エキスパートでないユーザは、トピックモデリングとセマンティックサーチによって提供される視覚的ユーザガイダンスでクエリを簡単に構築できる。
OnSETは、効率的でオープンなプラットフォームを組み合わせて、システムをコモディティハードウェアにデプロイする。
論文 参考訳(メタデータ) (2025-04-11T09:18:06Z) - CS-PaperSum: A Large-Scale Dataset of AI-Generated Summaries for Scientific Papers [3.929864777332447]
CS-PaperSumは、31の上位コンピュータサイエンスカンファレンスから91,919件の大規模データセットである。
我々のデータセットは、自動文献分析、研究トレンド予測、AIによる科学的発見を可能にする。
論文 参考訳(メタデータ) (2025-02-27T22:48:35Z) - GeAR: Generation Augmented Retrieval [82.20696567697016]
本稿では,新しい方法であるtextbfGe$nerationを紹介する。
対照的な学習を通じて、グローバルなドキュメントクエリの類似性を改善すると同時に、よく設計されたフュージョンとデコードモジュールを統合する。
検索機として使用する場合、GeARはバイエンコーダよりも計算コストがかかることはない。
論文 参考訳(メタデータ) (2025-01-06T05:29:00Z) - ClusterChat: Multi-Feature Search for Corpus Exploration [3.4123736336071864]
ClusterChatは、クラスタベースのドキュメント組織を統合するコーパス探索用のオープンソースのシステムである。
我々は,400万の抽象PubMedデータセットを2つのケーススタディで検証した。
論文 参考訳(メタデータ) (2024-12-19T05:11:16Z) - Conversational Exploratory Search of Scholarly Publications Using Knowledge Graphs [3.3916160303055567]
我々は,知識グラフを用いた学術出版物探索のための会話検索システムを開発した。
システムの有効性を評価するために,様々な評価指標を用い,40名の被験者で人的評価を行った。
論文 参考訳(メタデータ) (2024-10-01T06:16:07Z) - pathfinder: A Semantic Framework for Literature Review and Knowledge Discovery in Astronomy [2.6952253149772996]
Pathfinderは天文学における文献のレビューと知識発見を可能にする機械学習フレームワークである。
我々のフレームワークは、LLMベースの合成と高度な検索技術を組み合わせて、意味文脈による天文学文献の検索を行う。
時間に基づく重み付けスキームと引用に基づく重み付けスキームを通じて、jargon、名前付きエンティティ、時間的側面の複雑さに対処する。
論文 参考訳(メタデータ) (2024-08-02T20:05:24Z) - Retrieval-Enhanced Machine Learning: Synthesis and Opportunities [60.34182805429511]
検索エンハンスメントは機械学習(ML)の幅広い範囲に拡張できる
この研究は、MLの様々な領域の文献を、現在の文献から欠落している一貫した表記で合成することで、このパラダイムの正式なフレームワークであるRetrieval-Enhanced Machine Learning (REML)を導入する。
本研究の目的は、様々な分野の研究者に対して、検索強化モデルの包括的、正式に構造化された枠組みを付与し、学際的な将来の研究を促進することである。
論文 参考訳(メタデータ) (2024-07-17T20:01:21Z) - A New Neural Search and Insights Platform for Navigating and Organizing
AI Research [56.65232007953311]
我々は、古典的なキーワード検索とニューラル検索を組み合わせた新しいプラットフォームであるAI Research Navigatorを導入し、関連する文献を発見し整理する。
本稿では,システム全体のアーキテクチャの概要と,文書分析,質問応答,検索,分析,専門家検索,レコメンデーションの構成要素について概説する。
論文 参考訳(メタデータ) (2020-10-30T19:12:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。