論文の概要: Automating Bibliometric Analysis with Sentence Transformers and Retrieval-Augmented Generation (RAG): A Pilot Study in Semantic and Contextual Search for Customized Literature Characterization for High-Impact Urban Research
- arxiv url: http://arxiv.org/abs/2410.09090v1
- Date: Tue, 8 Oct 2024 05:13:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 16:48:15.020990
- Title: Automating Bibliometric Analysis with Sentence Transformers and Retrieval-Augmented Generation (RAG): A Pilot Study in Semantic and Contextual Search for Customized Literature Characterization for High-Impact Urban Research
- Title(参考訳): 文変圧器と検索型生成(RAG:Retrieval-Augmented Generation)による書誌分析の自動化 : 高度都市研究のためのセマンティック・コンテクスト検索の試み
- Authors: Haowen Xu, Xueping Li, Jose Tupayachi, Jianming, Lian, Femi Omitaomu,
- Abstract要約: 文献分析は、都市科学における研究動向、スコープ、影響を理解するために不可欠である。
キーワード検索に依存する伝統的な手法は、記事のタイトルやキーワードに明記されていない価値ある洞察を明らかにするのに失敗することが多い。
我々は、生成AIモデル、特にトランスフォーマーとレトリーバル拡張生成(RAG)を活用して、バイオロメトリ分析の自動化と強化を行う。
- 参考スコア(独自算出の注目度): 2.1728621449144763
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Bibliometric analysis is essential for understanding research trends, scope, and impact in urban science, especially in high-impact journals, such Nature Portfolios. However, traditional methods, relying on keyword searches and basic NLP techniques, often fail to uncover valuable insights not explicitly stated in article titles or keywords. These approaches are unable to perform semantic searches and contextual understanding, limiting their effectiveness in classifying topics and characterizing studies. In this paper, we address these limitations by leveraging Generative AI models, specifically transformers and Retrieval-Augmented Generation (RAG), to automate and enhance bibliometric analysis. We developed a technical workflow that integrates a vector database, Sentence Transformers, a Gaussian Mixture Model (GMM), Retrieval Agent, and Large Language Models (LLMs) to enable contextual search, topic ranking, and characterization of research using customized prompt templates. A pilot study analyzing 223 urban science-related articles published in Nature Communications over the past decade highlights the effectiveness of our approach in generating insightful summary statistics on the quality, scope, and characteristics of papers in high-impact journals. This study introduces a new paradigm for enhancing bibliometric analysis and knowledge retrieval in urban research, positioning an AI agent as a powerful tool for advancing research evaluation and understanding.
- Abstract(参考訳): 文献分析は都市科学における研究動向、スコープ、影響を理解するのに不可欠であり、特にNature Portfoliosのようなハイインパクトな雑誌において重要である。
しかしながら、キーワード検索や基本的なNLP技術に依存した従来の手法は、記事のタイトルやキーワードに明記されていない貴重な洞察を明らかにするのに失敗することが多い。
これらのアプローチは意味探索や文脈理解を行うことができず、トピックの分類や研究の性格化においてその効果を制限している。
本稿では,生成型AIモデル,特にトランスフォーマーと検索型拡張生成(RAG)を活用して,バイオロメトリ分析の自動化と向上を図る。
我々は,ベクトルデータベース,文変換器,ガウス混合モデル(GMM),検索エージェント,大言語モデル(LLMs)を統合し,文脈検索,トピックランキング,カスタマイズしたプロンプトテンプレートを用いた研究のキャラクタリゼーションを実現する技術ワークフローを開発した。
過去10年間にNature Communicationsに掲載された223の都市科学関連記事を分析したパイロット研究は、ハイインパクトジャーナルにおける論文の品質、スコープ、特徴に関する洞察に富んだ要約統計を作成するためのアプローチの有効性を強調した。
本研究は, 都市部における文献分析と知識検索の促進のための新たなパラダイムを導入し, 研究評価と理解を促進する強力なツールとしてAIエージェントを位置づけた。
関連論文リスト
- Large Language Model for Qualitative Research -- A Systematic Mapping Study [3.302912592091359]
先進的な生成AIを駆使した大規模言語モデル(LLM)がトランスフォーメーションツールとして登場した。
本研究は, LLMを用いた定性的研究に関する文献を体系的にマッピングする。
LLMは様々な分野にまたがって利用されており、プロセスの自動化の可能性を示している。
論文 参考訳(メタデータ) (2024-11-18T21:28:00Z) - LLAssist: Simple Tools for Automating Literature Review Using Large Language Models [0.0]
LLAssistは学術研究における文献レビューの合理化を目的としたオープンソースツールである。
レビュープロセスの重要な側面を自動化するために、Large Language Models(LLM)とNatural Language Processing(NLP)技術を使用する。
論文 参考訳(メタデータ) (2024-07-19T02:48:54Z) - Retrieval-Enhanced Machine Learning: Synthesis and Opportunities [60.34182805429511]
検索エンハンスメントは機械学習(ML)の幅広い範囲に拡張できる
この研究は、MLの様々な領域の文献を、現在の文献から欠落している一貫した表記で合成することで、このパラダイムの正式なフレームワークであるRetrieval-Enhanced Machine Learning (REML)を導入する。
本研究の目的は、様々な分野の研究者に対して、検索強化モデルの包括的、正式に構造化された枠組みを付与し、学際的な将来の研究を促進することである。
論文 参考訳(メタデータ) (2024-07-17T20:01:21Z) - RelevAI-Reviewer: A Benchmark on AI Reviewers for Survey Paper Relevance [0.8089605035945486]
本稿では,調査論文レビューの課題を分類問題として概念化するシステムであるRelevAI-Reviewerを提案する。
25,164のインスタンスからなる新しいデータセットを導入する。各インスタンスには1つのプロンプトと4つの候補論文があり、それぞれがプロンプトに関連している。
我々は,各論文の関連性を判断し,最も関連性の高い論文を識別できる機械学習(ML)モデルを開発した。
論文 参考訳(メタデータ) (2024-06-13T06:42:32Z) - ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models [56.08917291606421]
ResearchAgentは、大規模言語モデルによる研究アイデア作成エージェントである。
科学文献に基づいて繰り返し精製しながら、問題、方法、実験設計を生成する。
我々は、複数の分野にわたる科学論文に関するResearchAgentを実験的に検証した。
論文 参考訳(メタデータ) (2024-04-11T13:36:29Z) - A Literature Review of Literature Reviews in Pattern Analysis and Machine Intelligence [58.6354685593418]
本稿では, レビューを評価するために, 記事レベル, フィールド正規化, 大規模言語モデルを用いた書誌指標を提案する。
新たに登場したAI生成の文献レビューも評価されている。
この研究は、文学レビューの現在の課題についての洞察を与え、彼らの開発に向けた今後の方向性を思い起こさせる。
論文 参考訳(メタデータ) (2024-02-20T11:28:50Z) - AHAM: Adapt, Help, Ask, Model -- Harvesting LLMs for literature mining [3.8384235322772864]
本稿では、BERTopicトピックモデリングフレームワークのドメイン固有のテキストbfadaptationをガイドするAHAMの方法論とメトリクスについて述べる。
LLaMa2生成言語モデルを利用することで、ワンショット学習によるトピック定義を生成する。
トピック間の類似度評価には、言語生成および翻訳プロセスからのメトリクスを利用する。
論文 参考訳(メタデータ) (2023-12-25T18:23:03Z) - Application of Transformers based methods in Electronic Medical Records:
A Systematic Literature Review [77.34726150561087]
本研究は,異なるNLPタスクにおける電子カルテ(EMR)のトランスフォーマーに基づく手法を用いて,最先端技術に関する体系的な文献レビューを行う。
論文 参考訳(メタデータ) (2023-04-05T22:19:42Z) - Investigating Fairness Disparities in Peer Review: A Language Model
Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。
我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。
我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文 参考訳(メタデータ) (2022-11-07T16:19:42Z) - Research Trends and Applications of Data Augmentation Algorithms [77.34726150561087]
我々は,データ拡張アルゴリズムの適用分野,使用するアルゴリズムの種類,重要な研究動向,時間経過に伴う研究の進展,およびデータ拡張文学における研究ギャップを同定する。
我々は、読者がデータ拡張の可能性を理解し、将来の研究方向を特定し、データ拡張研究の中で質問を開くことを期待する。
論文 参考訳(メタデータ) (2022-07-18T11:38:32Z) - Generating Knowledge Graphs by Employing Natural Language Processing and
Machine Learning Techniques within the Scholarly Domain [1.9004296236396943]
本稿では、自然言語処理と機械学習を利用して研究論文から実体や関係を抽出する新しいアーキテクチャを提案する。
本研究では,現在最先端の自然言語処理ツールとテキストマイニングツールを用いて,知識抽出の課題に取り組む。
セマンティックWebドメイン内の論文26,827件から抽出した109,105件のトリプルを含む科学知識グラフを作成した。
論文 参考訳(メタデータ) (2020-10-28T08:31:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。