Fugu-MT 論文翻訳(概要): Automating Bibliometric Analysis with Sentence Transformers and Retrieval-Augmented Generation (RAG): A Pilot Study in Semantic and Contextual Search for Customized Literature Characterization for High-Impact Urban Research

論文の概要: Automating Bibliometric Analysis with Sentence Transformers and Retrieval-Augmented Generation (RAG): A Pilot Study in Semantic and Contextual Search for Customized Literature Characterization for High-Impact Urban Research

arxiv url: http://arxiv.org/abs/2410.09090v1
Date: Tue, 8 Oct 2024 05:13:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-30 16:48:15.020990
Title: Automating Bibliometric Analysis with Sentence Transformers and Retrieval-Augmented Generation (RAG): A Pilot Study in Semantic and Contextual Search for Customized Literature Characterization for High-Impact Urban Research
Title（参考訳）: 文変圧器と検索型生成(RAG:Retrieval-Augmented Generation)による書誌分析の自動化 : 高度都市研究のためのセマンティック・コンテクスト検索の試み
Authors: Haowen Xu, Xueping Li, Jose Tupayachi, Jianming, Lian, Femi Omitaomu,
Abstract要約: 文献分析は、都市科学における研究動向、スコープ、影響を理解するために不可欠である。キーワード検索に依存する伝統的な手法は、記事のタイトルやキーワードに明記されていない価値ある洞察を明らかにするのに失敗することが多い。我々は、生成AIモデル、特にトランスフォーマーとレトリーバル拡張生成(RAG)を活用して、バイオロメトリ分析の自動化と強化を行う。
参考スコア（独自算出の注目度）: 2.1728621449144763
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Bibliometric analysis is essential for understanding research trends, scope, and impact in urban science, especially in high-impact journals, such Nature Portfolios. However, traditional methods, relying on keyword searches and basic NLP techniques, often fail to uncover valuable insights not explicitly stated in article titles or keywords. These approaches are unable to perform semantic searches and contextual understanding, limiting their effectiveness in classifying topics and characterizing studies. In this paper, we address these limitations by leveraging Generative AI models, specifically transformers and Retrieval-Augmented Generation (RAG), to automate and enhance bibliometric analysis. We developed a technical workflow that integrates a vector database, Sentence Transformers, a Gaussian Mixture Model (GMM), Retrieval Agent, and Large Language Models (LLMs) to enable contextual search, topic ranking, and characterization of research using customized prompt templates. A pilot study analyzing 223 urban science-related articles published in Nature Communications over the past decade highlights the effectiveness of our approach in generating insightful summary statistics on the quality, scope, and characteristics of papers in high-impact journals. This study introduces a new paradigm for enhancing bibliometric analysis and knowledge retrieval in urban research, positioning an AI agent as a powerful tool for advancing research evaluation and understanding.
Abstract（参考訳）: 文献分析は都市科学における研究動向、スコープ、影響を理解するのに不可欠であり、特にNature Portfoliosのようなハイインパクトな雑誌において重要である。しかしながら、キーワード検索や基本的なNLP技術に依存した従来の手法は、記事のタイトルやキーワードに明記されていない貴重な洞察を明らかにするのに失敗することが多い。これらのアプローチは意味探索や文脈理解を行うことができず、トピックの分類や研究の性格化においてその効果を制限している。本稿では,生成型AIモデル,特にトランスフォーマーと検索型拡張生成(RAG)を活用して,バイオロメトリ分析の自動化と向上を図る。我々は,ベクトルデータベース,文変換器,ガウス混合モデル(GMM),検索エージェント,大言語モデル(LLMs)を統合し,文脈検索,トピックランキング,カスタマイズしたプロンプトテンプレートを用いた研究のキャラクタリゼーションを実現する技術ワークフローを開発した。過去10年間にNature Communicationsに掲載された223の都市科学関連記事を分析したパイロット研究は、ハイインパクトジャーナルにおける論文の品質、スコープ、特徴に関する洞察に富んだ要約統計を作成するためのアプローチの有効性を強調した。本研究は, 都市部における文献分析と知識検索の促進のための新たなパラダイムを導入し, 研究評価と理解を促進する強力なツールとしてAIエージェントを位置づけた。

関連論文リスト

Large-Scale Multidimensional Knowledge Profiling of Scientific Literature [46.15403461273178]
2020年から2025年の間に、22の主要なカンファレンスから10万以上の論文をまとめてまとめました。分析では,安全性の向上,マルチモーダル推論,エージェント指向研究など,いくつかの顕著な変化に注目した。これらの発見は、AI研究の進化に関するエビデンスベースの見解を提供し、より広範なトレンドを理解し、新たな方向性を特定するためのリソースを提供する。
論文参考訳（メタデータ） (2026-01-21T16:47:05Z)
LiRA: A Multi-Agent Framework for Reliable and Readable Literature Review Generation [66.09346158850308]
文献レビュープロセスをエミュレートする多エージェント協調ワークフローLiRA(Literature Review Agents)を提案する。 LiRAは、コンテンツアウトライン、サブセクションの執筆、編集、レビュー、コヒーシブで包括的なレビュー記事の作成に特殊エージェントを使用している。実世界のシナリオにおいて文書検索を用いてLiRAを評価し,そのロバスト性を評価する。
論文参考訳（メタデータ） (2025-10-01T12:14:28Z)
From Web Search towards Agentic Deep Research: Incentivizing Search with Reasoning Agents [96.65646344634524]
推論とエージェント能力を備えた大規模言語モデル(LLM)は、エージェントディープリサーチ(Agenic Deep Research)と呼ばれる新しいパラダイムを取り入れている。静的なWeb検索から,計画,探索,学習を行う対話型エージェントベースのシステムへの進化を辿ります。我々はエージェントディープリサーチが既存のアプローチを著しく上回るだけでなく、将来の情報探索において支配的なパラダイムになることを実証する。
論文参考訳（メタデータ） (2025-06-23T17:27:19Z)
Creating Targeted, Interpretable Topic Models with LLM-Generated Text Augmentation [0.5120567378386615]
我々は、政治学や社会学などの分野における非構造化テキストデータの潜在パターンを特定するために、トピックモデリングとクラスタリングを用いる。 GPT-4拡張を用いたトピックモデリングは,人間による指導を最小限に抑えることで,ドメイン固有の研究課題を調査できる高い解釈可能なカテゴリを創出することを発見した。
論文参考訳（メタデータ） (2025-04-24T11:14:13Z)
CS-PaperSum: A Large-Scale Dataset of AI-Generated Summaries for Scientific Papers [3.929864777332447]
CS-PaperSumは、31の上位コンピュータサイエンスカンファレンスから91,919件の大規模データセットである。我々のデータセットは、自動文献分析、研究トレンド予測、AIによる科学的発見を可能にする。
論文参考訳（メタデータ） (2025-02-27T22:48:35Z)
Bridging the Evaluation Gap: Leveraging Large Language Models for Topic Model Evaluation [0.0]
本研究では,Large Language Models (LLMs) を用いた科学文献における動的に進化するトピックの自動評価のための枠組みを提案する。提案手法は,専門家のアノテータや狭義の統計指標に大きく依存することなく,コヒーレンス,反復性,多様性,トピック文書のアライメントといった重要な品質次元を測定するためにLLMを利用する。
論文参考訳（メタデータ） (2025-02-11T08:23:56Z)
Transforming Science with Large Language Models: A Survey on AI-assisted Scientific Discovery, Experimentation, Content Generation, and Evaluation [58.064940977804596]
多くの新しいAIモデルとツールが提案され、世界中の研究者や学者が研究をより効果的かつ効率的に実施できるようにすることを約束している。これらのツールの欠点と誤用の可能性に関する倫理的懸念は、議論の中で特に顕著な位置を占める。
論文参考訳（メタデータ） (2025-02-07T18:26:45Z)
Large Language Model for Qualitative Research -- A Systematic Mapping Study [3.302912592091359]
先進的な生成AIを駆使した大規模言語モデル(LLM)がトランスフォーメーションツールとして登場した。本研究は, LLMを用いた定性的研究に関する文献を体系的にマッピングする。 LLMは様々な分野にまたがって利用されており、プロセスの自動化の可能性を示している。
論文参考訳（メタデータ） (2024-11-18T21:28:00Z)
LLAssist: Simple Tools for Automating Literature Review Using Large Language Models [0.0]
LLAssistは学術研究における文献レビューの合理化を目的としたオープンソースツールである。レビュープロセスの重要な側面を自動化するために、Large Language Models(LLM)とNatural Language Processing(NLP)技術を使用する。
論文参考訳（メタデータ） (2024-07-19T02:48:54Z)
Retrieval-Enhanced Machine Learning: Synthesis and Opportunities [60.34182805429511]
検索エンハンスメントは機械学習(ML)の幅広い範囲に拡張できるこの研究は、MLの様々な領域の文献を、現在の文献から欠落している一貫した表記で合成することで、このパラダイムの正式なフレームワークであるRetrieval-Enhanced Machine Learning (REML)を導入する。本研究の目的は、様々な分野の研究者に対して、検索強化モデルの包括的、正式に構造化された枠組みを付与し、学際的な将来の研究を促進することである。
論文参考訳（メタデータ） (2024-07-17T20:01:21Z)
RelevAI-Reviewer: A Benchmark on AI Reviewers for Survey Paper Relevance [0.8089605035945486]
本稿では,調査論文レビューの課題を分類問題として概念化するシステムであるRelevAI-Reviewerを提案する。 25,164のインスタンスからなる新しいデータセットを導入する。各インスタンスには1つのプロンプトと4つの候補論文があり、それぞれがプロンプトに関連している。我々は,各論文の関連性を判断し,最も関連性の高い論文を識別できる機械学習(ML)モデルを開発した。
論文参考訳（メタデータ） (2024-06-13T06:42:32Z)
ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models [56.08917291606421]
ResearchAgentは、大規模言語モデルによる研究アイデア作成エージェントである。科学文献に基づいて繰り返し精製しながら、問題、方法、実験設計を生成する。我々は、複数の分野にわたる科学論文に関するResearchAgentを実験的に検証した。
論文参考訳（メタデータ） (2024-04-11T13:36:29Z)
A Literature Review of Literature Reviews in Pattern Analysis and Machine Intelligence [58.6354685593418]
本稿では, レビューを評価するために, 記事レベル, フィールド正規化, 大規模言語モデルを用いた書誌指標を提案する。新たに登場したAI生成の文献レビューも評価されている。この研究は、文学レビューの現在の課題についての洞察を与え、彼らの開発に向けた今後の方向性を思い起こさせる。
論文参考訳（メタデータ） (2024-02-20T11:28:50Z)
AHAM: Adapt, Help, Ask, Model -- Harvesting LLMs for literature mining [3.8384235322772864]
本稿では、BERTopicトピックモデリングフレームワークのドメイン固有のテキストbfadaptationをガイドするAHAMの方法論とメトリクスについて述べる。 LLaMa2生成言語モデルを利用することで、ワンショット学習によるトピック定義を生成する。トピック間の類似度評価には、言語生成および翻訳プロセスからのメトリクスを利用する。
論文参考訳（メタデータ） (2023-12-25T18:23:03Z)
Application of Transformers based methods in Electronic Medical Records: A Systematic Literature Review [77.34726150561087]
本研究は,異なるNLPタスクにおける電子カルテ(EMR)のトランスフォーマーに基づく手法を用いて,最先端技術に関する体系的な文献レビューを行う。
論文参考訳（メタデータ） (2023-04-05T22:19:42Z)
Investigating Fairness Disparities in Peer Review: A Language Model Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文参考訳（メタデータ） (2022-11-07T16:19:42Z)
Research Trends and Applications of Data Augmentation Algorithms [77.34726150561087]
我々は,データ拡張アルゴリズムの適用分野,使用するアルゴリズムの種類,重要な研究動向,時間経過に伴う研究の進展,およびデータ拡張文学における研究ギャップを同定する。我々は、読者がデータ拡張の可能性を理解し、将来の研究方向を特定し、データ拡張研究の中で質問を開くことを期待する。
論文参考訳（メタデータ） (2022-07-18T11:38:32Z)
Generating Knowledge Graphs by Employing Natural Language Processing and Machine Learning Techniques within the Scholarly Domain [1.9004296236396943]
本稿では、自然言語処理と機械学習を利用して研究論文から実体や関係を抽出する新しいアーキテクチャを提案する。本研究では,現在最先端の自然言語処理ツールとテキストマイニングツールを用いて,知識抽出の課題に取り組む。セマンティックWebドメイン内の論文26,827件から抽出した109,105件のトリプルを含む科学知識グラフを作成した。
論文参考訳（メタデータ） (2020-10-28T08:31:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。