論文の概要: CoCon: A Data Set on Combined Contextualized Research Artifact Use
- arxiv url: http://arxiv.org/abs/2303.15193v1
- Date: Mon, 27 Mar 2023 13:29:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 15:12:10.552555
- Title: CoCon: A Data Set on Combined Contextualized Research Artifact Use
- Title(参考訳): CoCon: コンテキスト化された研究成果物の併用に関するデータセット
- Authors: Tarek Saier and Youxiang Dong and Michael F\"arber
- Abstract要約: CoConは学術出版物の全文に研究成果物の組み合わせを反映した大規模な学術データセットである。
データセットは35kのアーティファクト(データセット、メソッド、モデル、タスク)と340kのパブリッシュで構成されています。
我々は,「総合研究成果物利用予測」のためのリンク予測タスクを形式化し,データに基づくMLアプリケーションの解析と開発を利用するためのコードを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the wake of information overload in academia, methodologies and systems
for search, recommendation, and prediction to aid researchers in identifying
relevant research are actively studied and developed. Existing work, however,
is limited in terms of granularity, focusing only on the level of papers or a
single type of artifact, such as data sets. To enable more holistic analyses
and systems dealing with academic publications and their content, we propose
CoCon, a large scholarly data set reflecting the combined use of research
artifacts, contextualized in academic publications' full-text. Our data set
comprises 35 k artifacts (data sets, methods, models, and tasks) and 340 k
publications. We additionally formalize a link prediction task for "combined
research artifact use prediction" and provide code to utilize analyses of and
the development of ML applications on our data. All data and code is publicly
available at https://github.com/IllDepence/contextgraph.
- Abstract(参考訳): 学界における情報過負荷の後、研究者が関連する研究を識別するのを助けるための探索・推薦・予測の方法論やシステムが積極的に研究・開発されている。
しかし、既存の作業は粒度の点で制限されており、論文のレベルやデータセットのような単一の種類のアーティファクトのみに焦点を当てている。
学術出版物とその内容に関するより包括的な分析・システムを実現するため,学術出版物の総合的な利用を反映した大規模な学術データセットであるCoConを提案する。
データセットは35kの成果物(データセット、メソッド、モデル、タスク)と340の出版物で構成されています。
また、「総合研究成果物利用予測」のためのリンク予測タスクを形式化し、データに基づくMLアプリケーションの解析と開発を利用するためのコードを提供する。
すべてのデータとコードはhttps://github.com/IllDepence/contextgraphで公開されている。
関連論文リスト
- SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。
我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文 参考訳(メタデータ) (2024-10-28T15:56:49Z) - Decoding MIE: A Novel Dataset Approach Using Topic Extraction and Affiliation Parsing [0.0]
本研究は,医療情報学ヨーロッパ(MIE)会議の手続きから得られた新しいデータセットを紹介する。
我々は,「健康技術・情報学研究」誌の4,606論文からメタデータと要約を抽出し,分析した。
論文 参考訳(メタデータ) (2024-10-06T19:34:23Z) - Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - A Survey on Data Selection for Language Models [148.300726396877]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - Research Trends and Applications of Data Augmentation Algorithms [77.34726150561087]
我々は,データ拡張アルゴリズムの適用分野,使用するアルゴリズムの種類,重要な研究動向,時間経過に伴う研究の進展,およびデータ拡張文学における研究ギャップを同定する。
我々は、読者がデータ拡張の可能性を理解し、将来の研究方向を特定し、データ拡張研究の中で質問を開くことを期待する。
論文 参考訳(メタデータ) (2022-07-18T11:38:32Z) - DeepShovel: An Online Collaborative Platform for Data Extraction in
Geoscience Literature with AI Assistance [48.55345030503826]
地質学者は、関連する結果やデータを発見、抽出、集約するために膨大な量の文献を読む必要がある。
DeepShovelは、彼らのニーズをサポートするAI支援データ抽出システムである。
14人の研究者によるユーザ評価の結果、DeepShovelは科学データベース構築のためのデータ抽出の効率を改善した。
論文 参考訳(メタデータ) (2022-02-21T12:18:08Z) - A Survey on Machine Learning Techniques for Source Code Analysis [14.129976741300029]
ソースコード解析に応用された機械学習の領域における現在の知識を要約することを目的としている。
そこで本研究では,2002年から2021年にかけて,広範囲にわたる文献検索を行い,初等研究364点を同定した。
論文 参考訳(メタデータ) (2021-10-18T20:13:38Z) - Deep Learning Schema-based Event Extraction: Literature Review and
Current Trends [60.29289298349322]
ディープラーニングに基づくイベント抽出技術が研究ホットスポットとなっている。
本稿では,ディープラーニングモデルに焦点をあて,最先端のアプローチを見直し,そのギャップを埋める。
論文 参考訳(メタデータ) (2021-07-05T16:32:45Z) - Topic Space Trajectories: A case study on machine learning literature [0.0]
本稿では,研究トピックの包括的追跡を可能にする構造であるトピック空間トラジェクトリを提案する。
我々は,32の出版会場から50年間の機械学習研究を対象とする出版コーパスへのアプローチの適用性を示した。
本手法は,論文分類,今後の研究課題の予測,未発表の論文提出のための会議や雑誌の掲載を推奨するために利用することができる。
論文 参考訳(メタデータ) (2020-10-23T10:53:42Z) - Machine Identification of High Impact Research through Text and Image
Analysis [0.4737991126491218]
本稿では,引用の可能性が低い論文から高い論文を自動的に分離するシステムを提案する。
本システムでは,文書全体の外観を推測する視覚的分類器と,コンテンツインフォームド決定のためのテキスト分類器の両方を用いる。
論文 参考訳(メタデータ) (2020-05-20T19:12:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。