論文の概要: On the Use of Context for Predicting Citation Worthiness of Sentences in
Scholarly Articles
- arxiv url: http://arxiv.org/abs/2104.08962v1
- Date: Sun, 18 Apr 2021 21:47:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-21 06:36:51.808823
- Title: On the Use of Context for Predicting Citation Worthiness of Sentences in
Scholarly Articles
- Title(参考訳): 学術論文における文の引用価値予測における文脈の利用について
- Authors: Rakesh Gosangi, Ravneet Arora, Mohsen Gheisarieha, Debanjan Mahata,
Haimin Zhang
- Abstract要約: この問題を階層的BiLSTMモデルを用いて解いたシーケンスラベリングタスクとして定式化する。
我々は200万以上の文とそのラベルを含む新しいベンチマークデータセットをコントリビュートする。
本研究は,引用価値のための文脈埋め込みと文脈埋め込みの利点を定量化する。
- 参考スコア(独自算出の注目度): 10.28696219236292
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this paper, we study the importance of context in predicting the citation
worthiness of sentences in scholarly articles. We formulate this problem as a
sequence labeling task solved using a hierarchical BiLSTM model. We contribute
a new benchmark dataset containing over two million sentences and their
corresponding labels. We preserve the sentence order in this dataset and
perform document-level train/test splits, which importantly allows
incorporating contextual information in the modeling process. We evaluate the
proposed approach on three benchmark datasets. Our results quantify the
benefits of using context and contextual embeddings for citation worthiness.
Lastly, through error analysis, we provide insights into cases where context
plays an essential role in predicting citation worthiness.
- Abstract(参考訳): 本稿では,学術論文における文章の引用価値の予測における文脈の重要性について検討する。
この問題を階層的BiLSTMモデルを用いて,シーケンスラベリングタスクとして定式化する。
我々は200万以上の文とそのラベルを含む新しいベンチマークデータセットをコントリビュートする。
このデータセットに文の順序を保存し、文書レベルのトレーニング/テスト分割を実行する。
提案手法を3つのベンチマークデータセットで評価した。
本研究は,引用価値のための文脈埋め込みと文脈埋め込みの利点を定量化する。
最後に、エラー分析を通じて、引用価値を予測する上でコンテキストが重要な役割を果たす場合の洞察を提供する。
関連論文リスト
- ALiiCE: Evaluating Positional Fine-grained Citation Generation [54.19617927314975]
本稿では,微細な引用生成のための最初の自動評価フレームワークであるALiiCEを提案する。
我々のフレームワークはまず、文のクレームを依存性分析によって原子クレームに解析し、次に原子クレームレベルでの引用品質を計算する。
複数大言語モデルの2つの長文QAデータセット上での位置的きめ細かな引用生成性能を評価する。
論文 参考訳(メタデータ) (2024-06-19T09:16:14Z) - Dataset of Quotation Attribution in German News Articles [19.222705178881558]
我々は、WIKINEWSに基づくドイツのニュース記事において、引用帰属のための新しい、自由で、クリエイティブなライセンス付きデータセットを提示する。
データセットは、1000のドキュメント(25万のトークン)にわたる、キュレートされた高品質のアノテーションを提供する。
論文 参考訳(メタデータ) (2024-04-25T17:19:13Z) - On Measuring Context Utilization in Document-Level MT Systems [12.02023514105999]
本稿では,文脈利用の尺度を用いて,精度に基づく評価を補完することを提案する。
自動アノテート支援コンテキストは人間のアノテートコンテキストに類似した結論を与えることを示す。
論文 参考訳(メタデータ) (2024-02-02T13:37:07Z) - On Context Utilization in Summarization with Large Language Models [83.84459732796302]
大きな言語モデル(LLM)は抽象的な要約タスクに優れ、流動的で関連する要約を提供する。
最近の進歩は、100kトークンを超える長期入力コンテキストを扱う能力を拡張している。
要約における文脈利用と位置バイアスに関する最初の総合的研究を行う。
論文 参考訳(メタデータ) (2023-10-16T16:45:12Z) - Inline Citation Classification using Peripheral Context and
Time-evolving Augmentation [23.88211560188731]
本稿では,引用文を用いた談話情報を提供する3Cextという新しいデータセットを提案する。
周辺文とドメイン知識を融合したトランスフォーマーベースのディープニューラルネットワークPeriCiteを提案する。
論文 参考訳(メタデータ) (2023-03-01T09:11:07Z) - Context vs Target Word: Quantifying Biases in Lexical Semantic Datasets [18.754562380068815]
BERTのような最先端のコンテキスト化モデルは、WiCやWSDのようなタスクを使用して、ワード・イン・コンテクストの表現を評価する。
本研究は,主要な文脈的語彙意味タスクにおいて,文脈-単語間相互作用を検証した最初の定量的分析(探索ベースラインを用いた)を提案する。
論文 参考訳(メタデータ) (2021-12-13T15:37:05Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - Multitask Learning for Class-Imbalanced Discourse Classification [74.41900374452472]
マルチタスクアプローチは,現在のベンチマークで7%のマイクロf1コアを改善できることを示す。
また,NLPにおける資源不足問題に対処するための追加手法の比較検討を行った。
論文 参考訳(メタデータ) (2021-01-02T07:13:41Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z) - Article citation study: Context enhanced citation sentiment detection [11.610277023001807]
サイテーションセシメット分析は、サイエントメトリー分析における最も研究の少ない課題の1つである。
我々は,引用文からなる8つのデータセットを開発し,手動で3つの感情極性にアノテートした。
テキスト, 音声のパート・オブ・音声タグ, 依存関係関係を組み合わさった, 単語の埋め込みを含むアンサンブル特徴工学手法を提案する。
論文 参考訳(メタデータ) (2020-05-10T00:27:19Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。