論文の概要: Analyzing the State of Computer Science Research with the DBLP Discovery
Dataset
- arxiv url: http://arxiv.org/abs/2212.00629v1
- Date: Thu, 1 Dec 2022 16:27:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 16:40:51.850822
- Title: Analyzing the State of Computer Science Research with the DBLP Discovery
Dataset
- Title(参考訳): DBLPディスカバリデータセットによる計算機科学研究の現状分析
- Authors: Lennart K\"ull
- Abstract要約: 我々は、CSメタデータに隠された暗黙のパターンを明らかにするために、サイエントメトリック分析を行う。
各種ダッシュボード,フィルタ,ビジュアライゼーションを用いてCS出版物を解析するインタラクティブWebアプリケーションであるCS-Insightsシステムを紹介した。
D3とCS-Insightsはどちらもオープンアクセス可能で、CS-Insightsは将来的に他のデータセットに容易に適応できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The number of scientific publications continues to rise exponentially,
especially in Computer Science (CS). However, current solutions to analyze
those publications restrict access behind a paywall, offer no features for
visual analysis, limit access to their data, only focus on niches or
sub-fields, and/or are not flexible and modular enough to be transferred to
other datasets. In this thesis, we conduct a scientometric analysis to uncover
the implicit patterns hidden in CS metadata and to determine the state of CS
research. Specifically, we investigate trends of the quantity, impact, and
topics for authors, venues, document types (conferences vs. journals), and
fields of study (compared to, e.g., medicine). To achieve this we introduce the
CS-Insights system, an interactive web application to analyze CS publications
with various dashboards, filters, and visualizations. The data underlying this
system is the DBLP Discovery Dataset (D3), which contains metadata from 5
million CS publications. Both D3 and CS-Insights are open-access, and
CS-Insights can be easily adapted to other datasets in the future. The most
interesting findings of our scientometric analysis include that i) there has
been a stark increase in publications, authors, and venues in the last two
decades, ii) many authors only recently joined the field, iii) the most cited
authors and venues focus on computer vision and pattern recognition, while the
most productive prefer engineering-related topics, iv) the preference of
researchers to publish in conferences over journals dwindles, v) on average,
journal articles receive twice as many citations compared to conference papers,
but the contrast is much smaller for the most cited conferences and journals,
and vi) journals also get more citations in all other investigated fields of
study, while only CS and engineering publish more in conferences than journals.
- Abstract(参考訳): 科学出版物の数は、特にコンピュータ科学(cs)において指数関数的に増加を続けている。
しかしながら、これらのパブリッシュを解析するための現在のソリューションは、ペイウォールの背後へのアクセスを制限し、ビジュアル分析のための機能を提供しず、データへのアクセスを制限し、ニッチやサブフィールドにのみフォーカスする。
本論文では,CSメタデータに隠された暗黙のパターンを明らかにするための科学的分析を行い,CS研究の現状を明らかにする。
具体的には、著者、会場、文書タイプ(会議対ジャーナル)、研究分野(医学など)の量、影響、話題の傾向について検討する。
そこで我々は,CS-Insightsシステムを導入し,様々なダッシュボード,フィルタ,ビジュアライゼーションを用いてCS出版物を分析する。
このシステムの基盤となるデータはDBLP Discovery Dataset (D3)であり、500万のCS出版物のメタデータを含んでいる。
d3とcs-insightsはどちらもオープンアクセスであり、cs-insightsは他のデータセットに将来容易に適応できる。
私たちのサイエントメトリック分析で最も興味深い発見は、
一 この二十年で出版物、著作家及び会場が大幅に増加したこと。
二 多くの著者が最近になってその分野に加わったこと。
三 最も引用される著者及び会場は、コンピュータビジョン及びパターン認識に焦点を当てる一方、最も生産的なものは、工学に関する話題を好む。
四 研究者が学術雑誌よりも会議に掲載することを好むこと。
五 平均して、雑誌記事は、会議論文の2倍の引用を受け取っているが、最も引用される会議や雑誌のコントラストははるかに小さい。
六 学術誌は、他のすべての研究分野においてより多くの引用を受け、一方、学術誌よりも会議で出版されるのは、cs及び工学者のみである。
関連論文リスト
- A Survey on Data Selection for Language Models [148.300726396877]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - Position: AI/ML Influencers Have a Place in the Academic Process [82.2069685579588]
機械学習研究の可視性向上におけるソーシャルメディアインフルエンサーの役割について検討する。
2018年12月から2023年10月までの間に、8000以上の論文の包括的なデータセットを収集しました。
我々の統計的および因果推論分析は、これらのインフルエンサーが支持する論文の引用が著しく増加することを示している。
論文 参考訳(メタデータ) (2024-01-24T20:05:49Z) - A Comprehensive Study of Groundbreaking Machine Learning Research:
Analyzing highly cited and impactful publications across six decades [1.6442870218029522]
機械学習(ML)は、コンピュータ科学やその他の関連分野の研究分野として注目されている。
重要なトレンド、影響力のある著者、そしてこれまでの重要な貢献を識別するために、高度に引用された出版物の風景を理解することが不可欠である。
論文 参考訳(メタデータ) (2023-08-01T21:43:22Z) - The Semantic Scholar Open Data Platform [79.4493235243312]
セマンティック・スカラー(Semantic Scholar、S2)は、学術文献の発見と理解を支援することを目的としたオープンデータプラットフォームおよびウェブサイトである。
我々は、学術的なPDFコンテンツ抽出と知識グラフの自動構築のための最先端技術を用いて、パブリックおよびプロプライエタリなデータソースを組み合わせる。
このグラフには、構造解析されたテキスト、自然言語要約、ベクトル埋め込みなどの高度な意味的特徴が含まれている。
論文 参考訳(メタデータ) (2023-01-24T17:13:08Z) - Investigating Fairness Disparities in Peer Review: A Language Model
Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。
我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。
我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文 参考訳(メタデータ) (2022-11-07T16:19:42Z) - Citation Trajectory Prediction via Publication Influence Representation
Using Temporal Knowledge Graph [52.07771598974385]
既存のアプローチは主に学術論文の時間的データとグラフデータのマイニングに依存している。
本フレームワークは,差分保存グラフ埋め込み,きめ細かい影響表現,学習に基づく軌道計算という3つのモジュールから構成される。
APSアカデミックデータセットとAIPatentデータセットの両方で実験を行った。
論文 参考訳(メタデータ) (2022-10-02T07:43:26Z) - D3: A Massive Dataset of Scholarly Metadata for Analyzing the State of
Computer Science Research [27.882505456528243]
DBLPは、コンピュータ科学に関する科学論文の公開リポジトリとしては最大である。
我々はDBLPから600万以上の論文を検索し、メタデータを抽出した。
D3は、コンピュータ科学研究のアクティビティ、生産性、焦点、バイアス、アクセシビリティ、および影響の傾向を特定するために使用することができる。
論文 参考訳(メタデータ) (2022-04-28T09:59:52Z) - Industry and Academic Research in Computer Vision [5.634825161148484]
本研究は,コンピュータビジョンにおける産学研究と学界のダイナミックな関係を研究することを目的としている。
結果は、この分野を代表するトップ5ビジョンカンファレンスのセットで実証される。
論文 参考訳(メタデータ) (2021-07-10T20:09:52Z) - What's New? Summarizing Contributions in Scientific Literature [85.95906677964815]
本稿では,論文のコントリビューションと作業状況について,個別の要約を生成するために,論文要約のアンタングル化という新たなタスクを導入する。
本稿では,学術論文のS2ORCコーパスを拡張し,コントリビューション・コントリビューション・コントリビューション・レファレンス・ラベルを付加する。
本稿では, 生成した出力の関連性, 新規性, 絡み合いを報告する総合的自動評価プロトコルを提案する。
論文 参考訳(メタデータ) (2020-11-06T02:23:01Z) - Topic Space Trajectories: A case study on machine learning literature [0.0]
本稿では,研究トピックの包括的追跡を可能にする構造であるトピック空間トラジェクトリを提案する。
我々は,32の出版会場から50年間の機械学習研究を対象とする出版コーパスへのアプローチの適用性を示した。
本手法は,論文分類,今後の研究課題の予測,未発表の論文提出のための会議や雑誌の掲載を推奨するために利用することができる。
論文 参考訳(メタデータ) (2020-10-23T10:53:42Z) - Machine Identification of High Impact Research through Text and Image
Analysis [0.4737991126491218]
本稿では,引用の可能性が低い論文から高い論文を自動的に分離するシステムを提案する。
本システムでは,文書全体の外観を推測する視覚的分類器と,コンテンツインフォームド決定のためのテキスト分類器の両方を用いる。
論文 参考訳(メタデータ) (2020-05-20T19:12:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。