論文の概要: CoCon: A Data Set on Combined Contextualized Research Artifact Use
- arxiv url: http://arxiv.org/abs/2303.15193v1
- Date: Mon, 27 Mar 2023 13:29:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 15:12:10.552555
- Title: CoCon: A Data Set on Combined Contextualized Research Artifact Use
- Title(参考訳): CoCon: コンテキスト化された研究成果物の併用に関するデータセット
- Authors: Tarek Saier and Youxiang Dong and Michael F\"arber
- Abstract要約: CoConは学術出版物の全文に研究成果物の組み合わせを反映した大規模な学術データセットである。
データセットは35kのアーティファクト(データセット、メソッド、モデル、タスク)と340kのパブリッシュで構成されています。
我々は,「総合研究成果物利用予測」のためのリンク予測タスクを形式化し,データに基づくMLアプリケーションの解析と開発を利用するためのコードを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the wake of information overload in academia, methodologies and systems
for search, recommendation, and prediction to aid researchers in identifying
relevant research are actively studied and developed. Existing work, however,
is limited in terms of granularity, focusing only on the level of papers or a
single type of artifact, such as data sets. To enable more holistic analyses
and systems dealing with academic publications and their content, we propose
CoCon, a large scholarly data set reflecting the combined use of research
artifacts, contextualized in academic publications' full-text. Our data set
comprises 35 k artifacts (data sets, methods, models, and tasks) and 340 k
publications. We additionally formalize a link prediction task for "combined
research artifact use prediction" and provide code to utilize analyses of and
the development of ML applications on our data. All data and code is publicly
available at https://github.com/IllDepence/contextgraph.
- Abstract(参考訳): 学界における情報過負荷の後、研究者が関連する研究を識別するのを助けるための探索・推薦・予測の方法論やシステムが積極的に研究・開発されている。
しかし、既存の作業は粒度の点で制限されており、論文のレベルやデータセットのような単一の種類のアーティファクトのみに焦点を当てている。
学術出版物とその内容に関するより包括的な分析・システムを実現するため,学術出版物の総合的な利用を反映した大規模な学術データセットであるCoConを提案する。
データセットは35kの成果物(データセット、メソッド、モデル、タスク)と340の出版物で構成されています。
また、「総合研究成果物利用予測」のためのリンク予測タスクを形式化し、データに基づくMLアプリケーションの解析と開発を利用するためのコードを提供する。
すべてのデータとコードはhttps://github.com/IllDepence/contextgraphで公開されている。
関連論文リスト
- A Survey on Data Selection for Language Models [151.6210632830082]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - Citation Trajectory Prediction via Publication Influence Representation
Using Temporal Knowledge Graph [52.07771598974385]
既存のアプローチは主に学術論文の時間的データとグラフデータのマイニングに依存している。
本フレームワークは,差分保存グラフ埋め込み,きめ細かい影響表現,学習に基づく軌道計算という3つのモジュールから構成される。
APSアカデミックデータセットとAIPatentデータセットの両方で実験を行った。
論文 参考訳(メタデータ) (2022-10-02T07:43:26Z) - Research Trends and Applications of Data Augmentation Algorithms [77.34726150561087]
我々は,データ拡張アルゴリズムの適用分野,使用するアルゴリズムの種類,重要な研究動向,時間経過に伴う研究の進展,およびデータ拡張文学における研究ギャップを同定する。
我々は、読者がデータ拡張の可能性を理解し、将来の研究方向を特定し、データ拡張研究の中で質問を開くことを期待する。
論文 参考訳(メタデータ) (2022-07-18T11:38:32Z) - A Survey of Historical Document Image Datasets [2.8707038627097226]
本稿では,文書画像解析のための画像データセットの体系的な文献レビューを行う。
手書きの写本や初期の版画などの史料に焦点が当てられている。
歴史的文書分析のための適切なデータセットを見つけることは、異なる機械学習アルゴリズムを用いた研究を促進するための重要な前提条件である。
論文 参考訳(メタデータ) (2022-03-16T09:56:48Z) - DeepShovel: An Online Collaborative Platform for Data Extraction in
Geoscience Literature with AI Assistance [48.55345030503826]
地質学者は、関連する結果やデータを発見、抽出、集約するために膨大な量の文献を読む必要がある。
DeepShovelは、彼らのニーズをサポートするAI支援データ抽出システムである。
14人の研究者によるユーザ評価の結果、DeepShovelは科学データベース構築のためのデータ抽出の効率を改善した。
論文 参考訳(メタデータ) (2022-02-21T12:18:08Z) - A Survey on Machine Learning Techniques for Source Code Analysis [14.129976741300029]
ソースコード解析に応用された機械学習の領域における現在の知識を要約することを目的としている。
そこで本研究では,2002年から2021年にかけて,広範囲にわたる文献検索を行い,初等研究364点を同定した。
論文 参考訳(メタデータ) (2021-10-18T20:13:38Z) - Deep Learning Schema-based Event Extraction: Literature Review and
Current Trends [60.29289298349322]
ディープラーニングに基づくイベント抽出技術が研究ホットスポットとなっている。
本稿では,ディープラーニングモデルに焦点をあて,最先端のアプローチを見直し,そのギャップを埋める。
論文 参考訳(メタデータ) (2021-07-05T16:32:45Z) - A Survey of Embedding Space Alignment Methods for Language and Knowledge
Graphs [77.34726150561087]
単語,文,知識グラフの埋め込みアルゴリズムに関する現在の研究状況について調査する。
本稿では、関連するアライメント手法の分類と、この研究分野で使用されるベンチマークデータセットについて論じる。
論文 参考訳(メタデータ) (2020-10-26T16:08:13Z) - Topic Space Trajectories: A case study on machine learning literature [0.0]
本稿では,研究トピックの包括的追跡を可能にする構造であるトピック空間トラジェクトリを提案する。
我々は,32の出版会場から50年間の機械学習研究を対象とする出版コーパスへのアプローチの適用性を示した。
本手法は,論文分類,今後の研究課題の予測,未発表の論文提出のための会議や雑誌の掲載を推奨するために利用することができる。
論文 参考訳(メタデータ) (2020-10-23T10:53:42Z) - Machine Identification of High Impact Research through Text and Image
Analysis [0.4737991126491218]
本稿では,引用の可能性が低い論文から高い論文を自動的に分離するシステムを提案する。
本システムでは,文書全体の外観を推測する視覚的分類器と,コンテンツインフォームド決定のためのテキスト分類器の両方を用いる。
論文 参考訳(メタデータ) (2020-05-20T19:12:24Z) - Two Huge Title and Keyword Generation Corpora of Research Articles [0.0]
本稿では,テキスト要約(OAGSX)とキーワード生成(OAGKX)の2つの巨大なデータセットを紹介する。
データは、研究プロファイルと出版物のネットワークであるOpen Academic Graphから取得された。
より具体的な分野から研究論文のサブセットを導出するために、この2つの集合にトピックモデリングを適用したい。
論文 参考訳(メタデータ) (2020-02-11T21:17:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。