論文の概要: CS-PaperSum: A Large-Scale Dataset of AI-Generated Summaries for Scientific Papers
- arxiv url: http://arxiv.org/abs/2502.20582v1
- Date: Thu, 27 Feb 2025 22:48:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:40:13.914124
- Title: CS-PaperSum: A Large-Scale Dataset of AI-Generated Summaries for Scientific Papers
- Title(参考訳): CS-PaperSum:科学論文のためのAI生成サプリメントの大規模データセット
- Authors: Javin Liu, Aryan Vats, Zihao He,
- Abstract要約: CS-PaperSumは、31の上位コンピュータサイエンスカンファレンスから91,919件の大規模データセットである。
我々のデータセットは、自動文献分析、研究トレンド予測、AIによる科学的発見を可能にする。
- 参考スコア(独自算出の注目度): 3.929864777332447
- License:
- Abstract: The rapid expansion of scientific literature in computer science presents challenges in tracking research trends and extracting key insights. Existing datasets provide metadata but lack structured summaries that capture core contributions and methodologies. We introduce CS-PaperSum, a large-scale dataset of 91,919 papers from 31 top-tier computer science conferences, enriched with AI-generated structured summaries using ChatGPT. To assess summary quality, we conduct embedding alignment analysis and keyword overlap analysis, demonstrating strong preservation of key concepts. We further present a case study on AI research trends, highlighting shifts in methodologies and interdisciplinary crossovers, including the rise of self-supervised learning, retrieval-augmented generation, and multimodal AI. Our dataset enables automated literature analysis, research trend forecasting, and AI-driven scientific discovery, providing a valuable resource for researchers, policymakers, and scientific information retrieval systems.
- Abstract(参考訳): 計算機科学における科学文献の急速な拡大は、研究トレンドの追跡と重要な洞察の抽出における課題を提示している。
既存のデータセットはメタデータを提供するが、コアコントリビューションと方法論をキャプチャする構造化された要約がない。
CS-PaperSumは、ChatGPTを用いてAIによって構築された要約を豊かにしたもので、31の上位階層のコンピュータサイエンスカンファレンスから91,919の論文からなる大規模なデータセットである。
要約品質を評価するため,埋め込みアライメント解析とキーワード重複解析を行い,重要な概念を強く保存することを示す。
さらに、自己教師型学習の台頭、検索強化世代、マルチモーダルAIなど、方法論と学際的クロスオーバーのシフトを強調した、AI研究のトレンドに関するケーススタディを提示する。
我々のデータセットは、自動文献分析、研究トレンド予測、AIによる科学的発見を可能にし、研究者、政策立案者、科学情報検索システムに貴重なリソースを提供する。
関連論文リスト
- A Retrieval-Augmented Generation Framework for Academic Literature Navigation in Data Science [2.5398014196797614]
本稿では、データサイエンティストが正確な文脈に関連のある学術リソースにアクセスするのを支援するために設計された人工知能(AI)ベースの拡張検索・拡張生成アプリケーションを提案する。
このAIを利用したアプリケーションは、情報抽出のための書誌データ生成(GROBID)技術を含む高度な技術を統合している。
Retrieval-Augmented Generation Assessment System (RAGAS) フレームワークを用いた総合評価では,重要な指標の大幅な改善が示されている。
論文 参考訳(メタデータ) (2024-12-19T21:14:54Z) - Automating Bibliometric Analysis with Sentence Transformers and Retrieval-Augmented Generation (RAG): A Pilot Study in Semantic and Contextual Search for Customized Literature Characterization for High-Impact Urban Research [2.1728621449144763]
文献分析は、都市科学における研究動向、スコープ、影響を理解するために不可欠である。
キーワード検索に依存する伝統的な手法は、記事のタイトルやキーワードに明記されていない価値ある洞察を明らかにするのに失敗することが多い。
我々は、生成AIモデル、特にトランスフォーマーとレトリーバル拡張生成(RAG)を活用して、バイオロメトリ分析の自動化と強化を行う。
論文 参考訳(メタデータ) (2024-10-08T05:13:27Z) - DISCOVER: A Data-driven Interactive System for Comprehensive Observation, Visualization, and ExploRation of Human Behaviour [6.716560115378451]
我々は,人間行動分析のための計算駆動型データ探索を効率化するために,モジュール型でフレキシブルでユーザフレンドリなソフトウェアフレームワークを導入する。
我々の主な目的は、高度な計算方法論へのアクセスを民主化することであり、これにより研究者は、広範囲の技術的熟練を必要とせずに、詳細な行動分析を行うことができる。
論文 参考訳(メタデータ) (2024-07-18T11:28:52Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。
2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。
タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - Ontology Embedding: A Survey of Methods, Applications and Resources [54.3453925775069]
オンロジはドメインの知識とメタデータを表現するために広く使われている。
直接支援できる論理的推論は、学習、近似、予測において非常に限られています。
1つの簡単な解決策は、統計分析と機械学習を統合することである。
論文 参考訳(メタデータ) (2024-06-16T14:49:19Z) - SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。
SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - Artificial intelligence to automate the systematic review of scientific
literature [0.0]
我々は過去15年間に提案されたAI技術について,研究者が科学的文献の体系的な分析を行うのを助けるために調査を行った。
現在サポートされているタスク、適用されるアルゴリズムの種類、34の初等研究で提案されているツールについて説明する。
論文 参考訳(メタデータ) (2024-01-13T19:12:49Z) - Research Trends and Applications of Data Augmentation Algorithms [77.34726150561087]
我々は,データ拡張アルゴリズムの適用分野,使用するアルゴリズムの種類,重要な研究動向,時間経過に伴う研究の進展,およびデータ拡張文学における研究ギャップを同定する。
我々は、読者がデータ拡張の可能性を理解し、将来の研究方向を特定し、データ拡張研究の中で質問を開くことを期待する。
論文 参考訳(メタデータ) (2022-07-18T11:38:32Z) - Characterising Research Areas in the field of AI [68.8204255655161]
トピックの共起ネットワーク上でクラスタリング分析を行うことで,主要な概念テーマを特定した。
その結果は、ディープラーニングや機械学習、物のインターネットといった研究テーマに対する学術的関心の高まりを浮き彫りにしている。
論文 参考訳(メタデータ) (2022-05-26T16:30:30Z) - Generating Knowledge Graphs by Employing Natural Language Processing and
Machine Learning Techniques within the Scholarly Domain [1.9004296236396943]
本稿では、自然言語処理と機械学習を利用して研究論文から実体や関係を抽出する新しいアーキテクチャを提案する。
本研究では,現在最先端の自然言語処理ツールとテキストマイニングツールを用いて,知識抽出の課題に取り組む。
セマンティックWebドメイン内の論文26,827件から抽出した109,105件のトリプルを含む科学知識グラフを作成した。
論文 参考訳(メタデータ) (2020-10-28T08:31:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。