論文の概要: SciTopic: Enhancing Topic Discovery in Scientific Literature through Advanced LLM
- arxiv url: http://arxiv.org/abs/2508.20514v1
- Date: Thu, 28 Aug 2025 07:55:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.167484
- Title: SciTopic: Enhancing Topic Discovery in Scientific Literature through Advanced LLM
- Title(参考訳): SciTopic:高度なLLMによる科学的文学におけるトピック発見の促進
- Authors: Pengjiang Li, Zaitian Wang, Xinhao Zhang, Ran Zhang, Lu Jiang, Pengfei Wang, Yuanchun Zhou,
- Abstract要約: 本稿では,大規模言語モデル(LLM)によって強化された高度なトピック発見手法を提案する。
具体的には、メタデータ、タイトル、要約を含む科学出版物からコンテンツをキャプチャするテキストエンコーダを構築する。
次に,LLMによって導かれるエントロピーに基づくサンプリングと三重項タスクを統合した空間最適化モジュールを構築する。
3つの実世界のデータセットで実施された実験は、SciTopicが最先端(SOTA)の科学的トピック発見方法より優れていることを示した。
- 参考スコア(独自算出の注目度): 19.949137890090814
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Topic discovery in scientific literature provides valuable insights for researchers to identify emerging trends and explore new avenues for investigation, facilitating easier scientific information retrieval. Many machine learning methods, particularly deep embedding techniques, have been applied to discover research topics. However, most existing topic discovery methods rely on word embedding to capture the semantics and lack a comprehensive understanding of scientific publications, struggling with complex, high-dimensional text relationships. Inspired by the exceptional comprehension of textual information by large language models (LLMs), we propose an advanced topic discovery method enhanced by LLMs to improve scientific topic identification, namely SciTopic. Specifically, we first build a textual encoder to capture the content from scientific publications, including metadata, title, and abstract. Next, we construct a space optimization module that integrates entropy-based sampling and triplet tasks guided by LLMs, enhancing the focus on thematic relevance and contextual intricacies between ambiguous instances. Then, we propose to fine-tune the textual encoder based on the guidance from the LLMs by optimizing the contrastive loss of the triplets, forcing the text encoder to better discriminate instances of different topics. Finally, extensive experiments conducted on three real-world datasets of scientific publications demonstrate that SciTopic outperforms the state-of-the-art (SOTA) scientific topic discovery methods, enabling researchers to gain deeper and faster insights.
- Abstract(参考訳): 科学文献におけるトピック発見は、研究者が新たなトレンドを特定し、調査のための新たな道を探り、科学的な情報の検索を容易にするための貴重な洞察を提供する。
多くの機械学習手法、特にディープ埋め込み技術が研究トピックの発見に応用されている。
しかし、既存のトピック発見手法の多くは、意味を捉えるために単語の埋め込みに依存しており、複雑な高次元のテキスト関係に苦しむ科学的出版物の包括的理解が欠如している。
大規模言語モデル(LLM)によるテキスト情報の例外的理解から着想を得て,LLMによって強化された高度なトピック発見手法を提案し,科学的トピック識別,すなわちSciTopicを提案する。
具体的には、まず、メタデータ、タイトル、要約を含む科学出版物からコンテンツをキャプチャするテキストエンコーダを構築します。
次に,LLMによって導かれるエントロピーに基づくサンプリングと三重項タスクを統合した空間最適化モジュールを構築し,あいまいなインスタンス間の意味的関連性と文脈的複雑度に着目した。
そこで本研究では,LLMからのガイダンスに基づいてテキストエンコーダを微調整し,コントラストの損失を最適化し,テキストエンコーダに異なるトピックのインスタンスを識別させる方法を提案する。
最後に、科学出版物の3つの実世界のデータセットで実施された広範な実験により、SciTopicは最先端(SOTA)の科学的トピック発見方法よりも優れており、研究者がより深くより早く洞察を得られることが示されている。
関連論文リスト
- Science Hierarchography: Hierarchical Organization of Science Literature [20.182213614072836]
我々は、科学文献を高品質な階層構造に整理する目的であるSCIENCE HIERARCHOGRAPHYを動機付けている。
我々は、効率的な埋め込みベースのクラスタリングとLLMベースのプロンプトを組み合わせたハイブリッドアプローチを開発した。
その結果,本手法は解釈可能性を改善し,科学的文献を探索するための代替経路を提供することがわかった。
論文 参考訳(メタデータ) (2025-04-18T17:59:29Z) - SciLitLLM: How to Adapt LLMs for Scientific Literature Understanding [22.131371019641417]
大言語モデルの成功にもかかわらず、科学文献理解の課題に直面している。
連続事前学習(CPT)と教師付き微調整(SFT)を統合したハイブリッド戦略を提案する。
我々は科学文献理解に特化したLLMスイートSciLitLLMを提案する。
論文 参考訳(メタデータ) (2024-08-28T05:41:52Z) - SciDMT: A Large-Scale Corpus for Detecting Scientific Mentions [52.35520385083425]
SciDMTは,科学的言及検出のための拡張および拡張されたコーパスである。
コーパスは,1)SciDMTの主コーパスは8万4千件の科学的論文と8百万件以上の弱い注釈付き言及アノテーションと,2)評価目的のために手作業で注釈付けされた100件の科学的論文からなる評価セットから構成される。
論文 参考訳(メタデータ) (2024-06-20T22:03:21Z) - A Comprehensive Survey of Scientific Large Language Models and Their Applications in Scientific Discovery [68.48094108571432]
大規模言語モデル(LLM)は、テキストやその他のデータ処理方法に革命をもたらした。
我々は,科学LLM間のクロスフィールドおよびクロスモーダル接続を明らかにすることで,研究ランドスケープのより総合的なビューを提供することを目指している。
論文 参考訳(メタデータ) (2024-06-16T08:03:24Z) - Scientific Large Language Models: A Survey on Biological & Chemical Domains [47.97810890521825]
大規模言語モデル(LLM)は、自然言語理解の強化において、変革的な力として現れてきた。
LLMの応用は従来の言語境界を超えて、様々な科学分野で開発された専門的な言語システムを含んでいる。
AI for Science(AI for Science)のコミュニティで急成長している分野として、科学LLMは包括的な探査を義務付けている。
論文 参考訳(メタデータ) (2024-01-26T05:33:34Z) - SciMMIR: Benchmarking Scientific Multi-modal Information Retrieval [64.03631654052445]
科学領域内の画像テキストペアリングにおけるMMIR性能を評価するための最新のベンチマークは、顕著なギャップを示している。
オープンアクセス用紙コレクションを利用した特殊な科学的MMIRベンチマークを開発する。
このベンチマークは、科学的文書に詳細なキャプションのある数字や表から抽出された、530Kの精巧にキュレートされた画像テキストペアからなる。
論文 参考訳(メタデータ) (2024-01-24T14:23:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。