論文の概要: CausalCite: A Causal Formulation of Paper Citations
- arxiv url: http://arxiv.org/abs/2311.02790v1
- Date: Sun, 5 Nov 2023 23:09:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 15:50:56.577416
- Title: CausalCite: A Causal Formulation of Paper Citations
- Title(参考訳): CausalCite:紙巻物の因果的な定式化
- Authors: Ishan Kumar, Zhijing Jin, Ehsan Mokhtarian, Siyuan Guo, Yuen Chen,
Negar Kiyavash, Mrinmaya Sachan, Bernhard Schoelkopf
- Abstract要約: 本稿では,従来のマッチングフレームワークを高次元テキスト埋め込みに適用する因果推論手法であるTextMatchを提案する。
論文引用の因果的定式化として、CausalCiteと呼ばれる結果の計量を適用した。
本研究は, 科学的専門家が報告した紙衝撃と高い相関性など, 様々な基準で有効性を示す。
- 参考スコア(独自算出の注目度): 56.211777469618326
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating the significance of a paper is pivotal yet challenging for the
scientific community. While the citation count is the most commonly used proxy
for this purpose, they are widely criticized for failing to accurately reflect
a paper's true impact. In this work, we propose a causal inference method,
TextMatch, which adapts the traditional matching framework to high-dimensional
text embeddings. Specifically, we encode each paper using the text embeddings
by large language models (LLMs), extract similar samples by cosine similarity,
and synthesize a counterfactual sample by the weighted average of similar
papers according to their similarity values. We apply the resulting metric,
called CausalCite, as a causal formulation of paper citations. We show its
effectiveness on various criteria, such as high correlation with paper impact
as reported by scientific experts on a previous dataset of 1K papers,
(test-of-time) awards for past papers, and its stability across various
sub-fields of AI. We also provide a set of findings that can serve as suggested
ways for future researchers to use our metric for a better understanding of a
paper's quality. Our code and data are at
https://github.com/causalNLP/causal-cite.
- Abstract(参考訳): 論文の重要性を評価することは、科学界にとって非常に難しい。
引用数はこの目的のために最もよく使われるプロキシであるが、紙の本当の影響を正確に反映していないと広く批判されている。
本研究では,従来のマッチングフレームワークを高次元テキスト埋め込みに適用する因果推論手法であるTextMatchを提案する。
具体的には,大規模言語モデル (LLM) によるテキスト埋め込みを用いて各論文をエンコードし,コサイン類似性により類似サンプルを抽出し,類似論文の重み付き平均値に基づいて対実サンプルを合成する。
論文引用の因果的定式化として、CausalCiteと呼ばれる結果の計量を適用した。
1k論文の過去のデータセットで科学者が報告した紙インパクトと高い相関性、過去の論文に対する(テスト・オブ・タイム)賞、aiのさまざまなサブフィールドにおける安定性など、さまざまな基準での有効性を示す。
我々はまた、将来の研究者が論文の品質をよりよく理解するために我々の指標を使用するための提案された方法として役立つ一連の発見を提供する。
コードとデータはhttps://github.com/causalNLP/causal-citeにある。
関連論文リスト
- Decade-long Utilization Patterns of ICSE Technical Papers and Associated Artifacts [0.0]
論文とそのアーティファクトから利用属性のデータを収集し,違いを特定する統計的評価を行い,各属性カテゴリの上位5論文を分析した。
論文引用と関連するアーティファクトの使用には大きな違いがある。
我々は,ICSEが過去10年間に受理した論文を概観し,研究論文とアーティファクトとの複雑な関係を強調した。
論文 参考訳(メタデータ) (2024-04-08T19:29:15Z) - Fusion of the Power from Citations: Enhance your Influence by Integrating Information from References [3.607567777043649]
本研究は,ある論文が学者の影響力を高めることができるか否かを判断するために,予測問題を定式化することを目的とする。
この研究にこの枠組みを適用することで、研究者は自分の論文が将来の影響力を高めることができるかどうかを特定できる。
論文 参考訳(メタデータ) (2023-10-27T19:51:44Z) - Chain-of-Factors Paper-Reviewer Matching [32.86512592730291]
本稿では,意味的・話題的・引用的要因を協調的に考慮した,論文レビューアマッチングのための統一モデルを提案する。
提案したChain-of-Factorsモデルの有効性を,最先端のペーパー-リビューアマッチング手法と科学的事前学習言語モデルと比較した。
論文 参考訳(メタデータ) (2023-10-23T01:29:18Z) - Estimating the Causal Effect of Early ArXiving on Paper Acceptance [56.538813945721685]
我々は,論文の審査期間(初期arXiving)前にarXivingが会議の受理に与える影響を推定する。
以上の結果から,早期のarXivingは,論文の受容に少なからぬ影響を及ぼす可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-24T07:45:38Z) - Forgotten Knowledge: Examining the Citational Amnesia in NLP [63.13508571014673]
論文を引用するのにどれくらいの時間がかかったのか、どのようにして変化したのか、そしてこの引用的注意/記憶に相関する要因は何か。
引用論文の約62%が出版直前の5年間のものであり,約17%が10年以上前のものであることを示す。
1990年から2014年にかけて、引用論文の中央値と年齢の多様性は着実に増加してきたが、その後傾向が逆転し、現在のNLP論文は、時間的引用の多様性が極端に低い。
論文 参考訳(メタデータ) (2023-05-29T18:30:34Z) - CiteBench: A benchmark for Scientific Citation Text Generation [69.37571393032026]
CiteBenchは引用テキスト生成のベンチマークである。
CiteBenchのコードはhttps://github.com/UKPLab/citebench.comで公開しています。
論文 参考訳(メタデータ) (2022-12-19T16:10:56Z) - Predicting Long-Term Citations from Short-Term Linguistic Influence [20.78217545537925]
研究論文の影響の基準尺度は、その引用回数である。
本稿では,タイムスタンプによる文書収集における言語的影響の定量化手法を提案する。
論文 参考訳(メタデータ) (2022-10-24T22:03:26Z) - Semantic Analysis for Automated Evaluation of the Potential Impact of
Research Articles [62.997667081978825]
本稿では,情報理論に基づくテキスト意味のベクトル表現のための新しい手法を提案する。
この情報意味論がLeicester Scientific Corpusに基づいてテキスト分類にどのように使用されるかを示す。
テキストの意味を表現するための情報的アプローチは,研究論文の科学的影響を効果的に予測する方法であることを示す。
論文 参考訳(メタデータ) (2021-04-26T20:37:13Z) - Enhancing Scientific Papers Summarization with Citation Graph [78.65955304229863]
引用グラフを用いて科学論文の要約作業を再定義します。
我々は,141kの研究論文を異なる領域に格納した,新しい科学論文要約データセットセマンティックスタディネットワーク(ssn)を構築した。
我々のモデルは、事前訓練されたモデルと比較して競争性能を達成することができる。
論文 参考訳(メタデータ) (2021-04-07T11:13:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。