論文の概要: Modeling citation worthiness by using attention-based bidirectional long short-term memory networks and interpretable models
- arxiv url: http://arxiv.org/abs/2405.12206v1
- Date: Mon, 20 May 2024 17:45:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 12:35:30.388737
- Title: Modeling citation worthiness by using attention-based bidirectional long short-term memory networks and interpretable models
- Title(参考訳): 注意に基づく双方向長期記憶ネットワークと解釈可能なモデルを用いた引用価値のモデル化
- Authors: Tong Zeng, Daniel E. Acuna,
- Abstract要約: 本稿では,注目機構と文脈情報を備えたBidirectional Long Short-Term Memory (BiLSTM) ネットワークを提案し,引用を必要とする文を検出する。
我々は、PubMed Open Access Subsetに基づく新しい大規模データセット(PMOA-CITE)を作成します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Scientist learn early on how to cite scientific sources to support their claims. Sometimes, however, scientists have challenges determining where a citation should be situated -- or, even worse, fail to cite a source altogether. Automatically detecting sentences that need a citation (i.e., citation worthiness) could solve both of these issues, leading to more robust and well-constructed scientific arguments. Previous researchers have applied machine learning to this task but have used small datasets and models that do not take advantage of recent algorithmic developments such as attention mechanisms in deep learning. We hypothesize that we can develop significantly accurate deep learning architectures that learn from large supervised datasets constructed from open access publications. In this work, we propose a Bidirectional Long Short-Term Memory (BiLSTM) network with attention mechanism and contextual information to detect sentences that need citations. We also produce a new, large dataset (PMOA-CITE) based on PubMed Open Access Subset, which is orders of magnitude larger than previous datasets. Our experiments show that our architecture achieves state of the art performance on the standard ACL-ARC dataset ($F_{1}=0.507$) and exhibits high performance ($F_{1}=0.856$) on the new PMOA-CITE. Moreover, we show that it can transfer learning across these datasets. We further use interpretable models to illuminate how specific language is used to promote and inhibit citations. We discover that sections and surrounding sentences are crucial for our improved predictions. We further examined purported mispredictions of the model, and uncovered systematic human mistakes in citation behavior and source data. This opens the door for our model to check documents during pre-submission and pre-archival procedures. We make this new dataset, the code, and a web-based tool available to the community.
- Abstract(参考訳): 科学者は、彼らの主張を支持するために科学的ソースを引用する方法を早期に学べる。
しかし時として、科学者は引用がどこにあるべきかを決定するのに苦労することがある。
引用を必要とする文(すなわち引用価値)を自動的に検出することは、これらの問題をどちらも解決し、より堅牢でよく構築された科学的議論へと繋がる。
従来の研究者はこのタスクに機械学習を適用してきたが、ディープラーニングにおける注意機構のような最近のアルゴリズムの発展を生かしていない小さなデータセットとモデルを使用してきた。
我々はオープンアクセス出版物から構築された大規模な教師付きデータセットから学習する、かなり正確なディープラーニングアーキテクチャを開発することができると仮定する。
本研究では,2方向長短期記憶ネットワーク(BiLSTM)を提案する。
また、PubMed Open Access Subsetに基づく新しい大規模データセット(PMOA-CITE)も作成しています。
実験の結果,本アーキテクチャは標準ACL-ARCデータセット(F_{1}=0.507$)の最先端性能を実現し,新しいPMOA-CITEにおいて高い性能(F_{1}=0.856$)を示すことがわかった。
さらに、これらのデータセット間で学習を伝達できることが示される。
さらに、解釈可能なモデルを用いて、特定の言語がどのように引用の促進と抑制に使われているかを照らし出す。
文の断面や周囲の文が, 予測精度の向上に不可欠であることが判明した。
さらに,モデルの誤予測を報告し,引用行動や情報源データにおける体系的な人的誤りを明らかにした。
これにより、我々のモデルが、提出前およびアーキヴァル前プロシージャの間、文書をチェックするための扉が開きます。
この新しいデータセット、コード、Webベースのツールをコミュニティに提供しています。
関連論文リスト
- Detecting Reference Errors in Scientific Literature with Large Language Models [0.552480439325792]
本研究は,OpenAI の GPT ファミリーにおいて,引用誤りを検出するための大規模言語モデルの能力を評価する。
その結果,大規模言語モデルでは文脈が限定され,微調整を行なわずに誤引用を検出できることがわかった。
論文 参考訳(メタデータ) (2024-11-09T07:30:38Z) - WebCiteS: Attributed Query-Focused Summarization on Chinese Web Search Results with Citations [34.99831757956635]
我々は,属性付きクエリ中心要約 (AQFS) のタスクを定式化するとともに,7kの人称注釈の要約を引用した中国語データセットであるWebCiteSを提示する。
これらの課題に対処するために、詳細なメトリクスを開発し、自動評価器が文を細かな検証のためにサブステートに分解できるようにする。
論文 参考訳(メタデータ) (2024-03-04T07:06:41Z) - Interactive Distillation of Large Single-Topic Corpora of Scientific
Papers [1.2954493726326113]
より堅牢だが時間を要するアプローチは、主題の専門家が文書を手書きするデータセットを構成的に構築することである。
ここでは,学術文献のターゲットデータセットを構築的に生成するための,機械学習に基づく新しいツールを紹介する。
論文 参考訳(メタデータ) (2023-09-19T17:18:36Z) - BLIAM: Literature-based Data Synthesis for Synergistic Drug Combination
Prediction [13.361489059744754]
BLIAMは、下流アプリケーションに対して解釈可能で、モデルに依存しないトレーニングデータポイントを生成する。
BLIAMは、生体医学実験では測定されなかった新しい薬物や細胞株のデータポイントを合成するのにさらに用いられる。
論文 参考訳(メタデータ) (2023-02-14T06:48:52Z) - The Semantic Scholar Open Data Platform [79.4493235243312]
セマンティック・スカラー(Semantic Scholar、S2)は、学術文献の発見と理解を支援することを目的としたオープンデータプラットフォームおよびウェブサイトである。
我々は、学術的なPDFコンテンツ抽出と知識グラフの自動構築のための最先端技術を用いて、パブリックおよびプロプライエタリなデータソースを組み合わせる。
このグラフには、構造解析されたテキスト、自然言語要約、ベクトル埋め込みなどの高度な意味的特徴が含まれている。
論文 参考訳(メタデータ) (2023-01-24T17:13:08Z) - Scientific Paper Extractive Summarization Enhanced by Citation Graphs [50.19266650000948]
我々は、引用グラフを活用して、異なる設定下での科学的論文の抽出要約を改善することに重点を置いている。
予備的な結果は、単純な教師なしフレームワークであっても、引用グラフが有用であることを示している。
そこで我々は,大規模ラベル付きデータが利用可能である場合のタスクにおいて,より正確な結果を得るために,グラフベースのスーパービジョン・サムライゼーション・モデル(GSS)を提案する。
論文 参考訳(メタデータ) (2022-12-08T11:53:12Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Towards generating citation sentences for multiple references with
intent control [86.53829532976303]
We build a novel generation model with the Fusion-in-Decoder approach to handlee with multiple long inputs。
実験により,提案手法は引用文を生成するためのより包括的な特徴を提供することが示された。
論文 参考訳(メタデータ) (2021-12-02T15:32:24Z) - CiteWorth: Cite-Worthiness Detection for Improved Scientific Document
Understanding [23.930041685595775]
本研究は,文が外部ソースを引用するか否かをラベル付けした英語における引用親和性検出の詳細な研究である。
CiteWorthは高品質で、挑戦的で、ドメイン適応のような問題の研究に適している。
論文 参考訳(メタデータ) (2021-05-23T11:08:45Z) - Hidden Biases in Unreliable News Detection Datasets [60.71991809782698]
データ収集中の選択バイアスがデータセットの望ましくないアーティファクトにつながることを示す。
クリーンスプリットでテストされたすべてのモデルに対して,列車/テストソースの重なりが無く,精度が大幅に低下した(>10%)。
将来的なデータセット生成には、困難/バイアスプローブとしての単純なモデルと、クリーンな非重複サイトと日付分割を使用する将来のモデル開発が含まれることを提案する。
論文 参考訳(メタデータ) (2021-04-20T17:16:41Z) - ReClor: A Reading Comprehension Dataset Requiring Logical Reasoning [85.33459673197149]
標準化された大学院受験試験から抽出した論理的推論(ReClor)を必要とする新たな読解データセットを提案する。
本稿では、偏りのあるデータポイントを識別し、それらをEASY集合と残りをHARD集合に分離することを提案する。
実験結果によると、最先端のモデルでは、データセットに含まれるバイアスをEASYセット上で高精度にキャプチャする能力に優れていた。
しかし、彼らはランダムな推測に近い性能のHARDセットに苦慮しており、現在のモデルの論理的推論能力を本質的に向上させるためには、より多くの研究が必要であることを示している。
論文 参考訳(メタデータ) (2020-02-11T11:54:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。