論文の概要: PST-Bench: Tracing and Benchmarking the Source of Publications
- arxiv url: http://arxiv.org/abs/2402.16009v1
- Date: Sun, 25 Feb 2024 06:56:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 15:54:13.839344
- Title: PST-Bench: Tracing and Benchmarking the Source of Publications
- Title(参考訳): PST-Bench: 出版源の追跡とベンチマーク
- Authors: Fanjin Zhang, Kun Cao, Yukuo Cen, Jifan Yu, Da Yin, Jie Tang
- Abstract要約: 本稿では,PST(Paper Source Trace)の問題について検討し,コンピュータ科学における高品質かつ継続的なデータセットPST-Benchを構築した。
PST-Benchに基づいて、様々なトピックにまたがる進化パターンの相違など、興味深い発見をいくつか明らかにした。
- 参考スコア(独自算出の注目度): 39.250042251037144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tracing the source of research papers is a fundamental yet challenging task
for researchers. The billion-scale citation relations between papers hinder
researchers from understanding the evolution of science efficiently. To date,
there is still a lack of an accurate and scalable dataset constructed by
professional researchers to identify the direct source of their studied papers,
based on which automatic algorithms can be developed to expand the evolutionary
knowledge of science. In this paper, we study the problem of paper source
tracing (PST) and construct a high-quality and ever-increasing dataset
PST-Bench in computer science. Based on PST-Bench, we reveal several intriguing
discoveries, such as the differing evolution patterns across various topics. An
exploration of various methods underscores the hardness of PST-Bench,
pinpointing potential directions on this topic. The dataset and codes have been
available at https://github.com/THUDM/paper-source-trace.
- Abstract(参考訳): 研究論文の出典の追跡は、研究者にとって基本的には難しい課題である。
論文間の数十億規模の引用関係は、研究者が科学の進化を効率的に理解することを妨げている。
これまでのところ、プロの研究者が研究論文の直接の情報源を特定するために構築した正確でスケーラブルなデータセットが不足している。
本稿では,紙ソーストレース(PST)の問題点を考察し,コンピュータ科学における高品質かつ継続的なデータセットPST-Benchを構築する。
PST-Benchに基づいて,様々なトピックにおける進化パターンの相違など,興味深い発見がいくつかある。
様々な方法の探求は、pst-benchの硬さを強調し、このトピックの潜在的な方向を突き止めている。
データセットとコードはhttps://github.com/thudm/paper-source-traceで入手できる。
関連論文リスト
- The SourceData-NLP dataset: integrating curation into scientific
publishing for training large language models [1.0423199374671421]
本稿では,出版過程における論文の定期的なキュレーションを通じて生成したSourceData-NLPデータセットについて述べる。
このデータセットは、分子生物学と細胞生物学の3,223の論文で18,689個の数字から算出された、620,000以上の注釈付き生物医学的な実体を含んでいる。
論文 参考訳(メタデータ) (2023-10-31T13:22:38Z) - A Diachronic Analysis of Paradigm Shifts in NLP Research: When, How, and
Why? [84.46288849132634]
本稿では、因果発見と推論技術を用いて、科学分野における研究トピックの進化を分析するための体系的な枠組みを提案する。
我々は3つの変数を定義し、NLPにおける研究トピックの進化の多様な側面を包含する。
我々は因果探索アルゴリズムを用いてこれらの変数間の因果関係を明らかにする。
論文 参考訳(メタデータ) (2023-05-22T11:08:00Z) - CiteBench: A benchmark for Scientific Citation Text Generation [69.37571393032026]
CiteBenchは引用テキスト生成のベンチマークである。
CiteBenchのコードはhttps://github.com/UKPLab/citebench.comで公開しています。
論文 参考訳(メタデータ) (2022-12-19T16:10:56Z) - Navigating causal deep learning [78.572170629379]
因果ディープラーニング(Causal Deep Learning, CDL)は、機械学習の大きな分野において、新しく重要な研究分野である。
本稿では、パールの因果関係のはしごを越えて、因果関係の深層学習の手法を分類する。
私たちのパラダイムは、研究者がベンチマークを見つけ、メソッドを比較し、そして最も重要なのは、研究のギャップを識別するのを助けるツールです。
論文 参考訳(メタデータ) (2022-12-01T23:44:23Z) - Research Trends and Applications of Data Augmentation Algorithms [77.34726150561087]
我々は,データ拡張アルゴリズムの適用分野,使用するアルゴリズムの種類,重要な研究動向,時間経過に伴う研究の進展,およびデータ拡張文学における研究ギャップを同定する。
我々は、読者がデータ拡張の可能性を理解し、将来の研究方向を特定し、データ拡張研究の中で質問を開くことを期待する。
論文 参考訳(メタデータ) (2022-07-18T11:38:32Z) - Research Scholar Interest Mining Method based on Load Centrality [15.265191824669555]
本稿では,負荷集中度に基づく研究研究者の関心マイニングアルゴリズムを提案する。
各トピックの地域構造は、ノードの集中度研究モデルの重みを正確に計算するために使用することができる。
本稿では, 負荷率センタに基づく科学的研究協力により, 科学的研究研究者の関心を効果的に抽出することができる。
論文 参考訳(メタデータ) (2022-03-21T04:16:46Z) - Tell Me How to Survey: Literature Review Made Simple with Automatic
Reading Path Generation [16.07200776251764]
論文を大量の文献から読めば、簡単な調査をしたり、特定の研究トピックに関する最新の進歩に遅れないようにする方法が課題になっている。
Google Scholarのような既存の学術検索エンジンは、各論文とクエリ間の関連性を個別に計算することで、関連論文を返す。
本稿では,あるクエリに対して読み込む論文のパスを自動生成することを目的とした読解パス生成(RPG)を紹介する。
論文 参考訳(メタデータ) (2021-10-12T20:58:46Z) - Paperswithtopic: Topic Identification from Paper Title Only [5.025654873456756]
人工知能(AI)分野からタイトルとサブフィールドで組み合わせた論文のデータセットを提示する。
また、論文タイトルのみから、論文のAIサブフィールドを予測する方法についても提示する。
変圧器モデルに対しては、モデルの分類過程をさらに説明するために、勾配に基づく注意可視化も提示する。
論文 参考訳(メタデータ) (2021-10-09T06:32:09Z) - Semi-Supervised Exaggeration Detection of Health Science Press Releases [23.930041685595775]
近年の研究では、研究結果を誇張することで、メディアが科学論文を誤って表現する傾向が示されている。
本稿では,科学コミュニケーションにおける誇張検出問題の形式化と研究について述べる。
本稿では,補完的なクローゼスタイルのQAタスクからの知識を活用し,数発の学習を改善する多タスク版であるMT-PETを紹介する。
論文 参考訳(メタデータ) (2021-08-30T19:32:20Z) - CitationIE: Leveraging the Citation Graph for Scientific Information
Extraction [89.33938657493765]
引用論文と引用論文の参照リンクの引用グラフを使用する。
最先端技術に対するエンド・ツー・エンドの情報抽出の大幅な改善を観察する。
論文 参考訳(メタデータ) (2021-06-03T03:00:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。