論文の概要: D3: A Massive Dataset of Scholarly Metadata for Analyzing the State of
Computer Science Research
- arxiv url: http://arxiv.org/abs/2204.13384v1
- Date: Thu, 28 Apr 2022 09:59:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-29 22:56:20.583614
- Title: D3: A Massive Dataset of Scholarly Metadata for Analyzing the State of
Computer Science Research
- Title(参考訳): D3:コンピュータサイエンス研究の現状を分析するための学術メタデータの膨大なデータセット
- Authors: Jan Philip Wahle and Terry Ruas and Saif M. Mohammad and Bela Gipp
- Abstract要約: DBLPは、コンピュータ科学に関する科学論文の公開リポジトリとしては最大である。
我々はDBLPから600万以上の論文を検索し、メタデータを抽出した。
D3は、コンピュータ科学研究のアクティビティ、生産性、焦点、バイアス、アクセシビリティ、および影響の傾向を特定するために使用することができる。
- 参考スコア(独自算出の注目度): 27.882505456528243
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: DBLP is the largest open-access repository of scientific articles on computer
science and provides metadata associated with publications, authors, and
venues. We retrieved more than 6 million publications from DBLP and extracted
pertinent metadata (e.g., abstracts, author affiliations, citations) from the
publication texts to create the DBLP Discovery Dataset (D3). D3 can be used to
identify trends in research activity, productivity, focus, bias, accessibility,
and impact of computer science research. We present an initial analysis focused
on the volume of computer science research (e.g., number of papers, authors,
research activity), trends in topics of interest, and citation patterns. Our
findings show that computer science is a growing research field (approx. 15%
annually), with an active and collaborative researcher community. While papers
in recent years present more bibliographical entries in comparison to previous
decades, the average number of citations has been declining. Investigating
papers' abstracts reveals that recent topic trends are clearly reflected in D3.
Finally, we list further applications of D3 and pose supplemental research
questions. The D3 dataset, our findings, and source code are publicly available
for research purposes.
- Abstract(参考訳): DBLPは、コンピュータ科学に関する科学論文の公開リポジトリであり、出版物、著者、会場に関連するメタデータを提供している。
我々はDBLPから600万以上の出版物を検索し、出版テキストから関連するメタデータ(要約、著者関係、引用など)を抽出し、DBLPディスカバリデータセット(D3)を作成しました。
D3は、コンピュータ科学研究のアクティビティ、生産性、焦点、バイアス、アクセシビリティ、および影響の傾向を特定するために使用できる。
本稿では,コンピュータサイエンス研究のボリューム(論文数,著者数,研究活動数),興味のあるトピックの傾向,引用パターンなどに着目した初期分析を行う。
その結果,コンピュータ科学は研究分野の成長(毎年約15%)であり,活発で協調的な研究者コミュニティであることがわかった。
近年の論文は、過去数十年に比べて書誌的な内容が多いが、引用数の平均は減少している。
論文の要約を見ると、最近のトピックトレンドがd3に明らかに反映されていることが分かる。
最後に、d3のさらなる応用をリストアップし、補足的な研究課題を提起する。
d3データセット、我々の調査結果、ソースコードは研究目的で公開されています。
関連論文リスト
- A Survey on Data Selection for Language Models [148.300726396877]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - A Bibliographic Study on Artificial Intelligence Research: Global
Panorama and Indian Appearance [2.9895330439073406]
この研究は、ニューラルネットワークとディープラーニングが、トップAI研究論文に含まれる主要なトピックであることを明らかにした。
この研究は、AI研究の観点からインドの研究者の相対的な位置についても調査している。
論文 参考訳(メタデータ) (2023-07-04T05:08:36Z) - The Semantic Scholar Open Data Platform [79.4493235243312]
セマンティック・スカラー(Semantic Scholar、S2)は、学術文献の発見と理解を支援することを目的としたオープンデータプラットフォームおよびウェブサイトである。
我々は、学術的なPDFコンテンツ抽出と知識グラフの自動構築のための最先端技術を用いて、パブリックおよびプロプライエタリなデータソースを組み合わせる。
このグラフには、構造解析されたテキスト、自然言語要約、ベクトル埋め込みなどの高度な意味的特徴が含まれている。
論文 参考訳(メタデータ) (2023-01-24T17:13:08Z) - Analyzing the State of Computer Science Research with the DBLP Discovery
Dataset [0.0]
我々は、CSメタデータに隠された暗黙のパターンを明らかにするために、サイエントメトリック分析を行う。
各種ダッシュボード,フィルタ,ビジュアライゼーションを用いてCS出版物を解析するインタラクティブWebアプリケーションであるCS-Insightsシステムを紹介した。
D3とCS-Insightsはどちらもオープンアクセス可能で、CS-Insightsは将来的に他のデータセットに容易に適応できる。
論文 参考訳(メタデータ) (2022-12-01T16:27:42Z) - Research Trends and Applications of Data Augmentation Algorithms [77.34726150561087]
我々は,データ拡張アルゴリズムの適用分野,使用するアルゴリズムの種類,重要な研究動向,時間経過に伴う研究の進展,およびデータ拡張文学における研究ギャップを同定する。
我々は、読者がデータ拡張の可能性を理解し、将来の研究方向を特定し、データ拡張研究の中で質問を開くことを期待する。
論文 参考訳(メタデータ) (2022-07-18T11:38:32Z) - DeepShovel: An Online Collaborative Platform for Data Extraction in
Geoscience Literature with AI Assistance [48.55345030503826]
地質学者は、関連する結果やデータを発見、抽出、集約するために膨大な量の文献を読む必要がある。
DeepShovelは、彼らのニーズをサポートするAI支援データ抽出システムである。
14人の研究者によるユーザ評価の結果、DeepShovelは科学データベース構築のためのデータ抽出の効率を改善した。
論文 参考訳(メタデータ) (2022-02-21T12:18:08Z) - Industry and Academic Research in Computer Vision [5.634825161148484]
本研究は,コンピュータビジョンにおける産学研究と学界のダイナミックな関係を研究することを目的としている。
結果は、この分野を代表するトップ5ビジョンカンファレンスのセットで実証される。
論文 参考訳(メタデータ) (2021-07-10T20:09:52Z) - Studying the characteristics of scientific communities using
individual-level bibliometrics: the case of Big Data research [2.208242292882514]
我々は,ビッグデータ研究に携わる作家コミュニティの学齢,生産,研究の焦点について検討する。
以上の結果から,「ビッグデータ」の学術領域は,著者のコミュニティが拡大する中で,近年の話題となっている。
論文 参考訳(メタデータ) (2021-06-10T08:17:09Z) - A Survey of Knowledge Tracing: Models, Variants, and Applications [70.69281873057619]
知識追跡は、学生の行動データ分析の基本的なタスクの1つである。
我々は、異なる技術経路を持つ3種類の基本KTモデルを示す。
この急速に成長する分野における今後の研究の方向性について論じる。
論文 参考訳(メタデータ) (2021-05-06T13:05:55Z) - Domain Generalization: A Survey [146.68420112164577]
ドメイン一般化(DG)は、モデル学習にソースドメインデータを使用するだけでOOD一般化を実現することを目的としています。
初めて、DGの10年の開発をまとめるために包括的な文献レビューが提供されます。
論文 参考訳(メタデータ) (2021-03-03T16:12:22Z) - Two Huge Title and Keyword Generation Corpora of Research Articles [0.0]
本稿では,テキスト要約(OAGSX)とキーワード生成(OAGKX)の2つの巨大なデータセットを紹介する。
データは、研究プロファイルと出版物のネットワークであるOpen Academic Graphから取得された。
より具体的な分野から研究論文のサブセットを導出するために、この2つの集合にトピックモデリングを適用したい。
論文 参考訳(メタデータ) (2020-02-11T21:17:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。