論文の概要: An Anchor Learning Approach for Citation Field Learning
- arxiv url: http://arxiv.org/abs/2309.03559v2
- Date: Thu, 14 Dec 2023 12:58:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-16 04:20:56.930536
- Title: An Anchor Learning Approach for Citation Field Learning
- Title(参考訳): 引用フィールド学習のためのアンカー学習手法
- Authors: Zilin Yuan, Borun Chen, Yimeng Dai, Yinghui Li, Hai-Tao Zheng, Rui
Zhang
- Abstract要約: 本稿では,励磁場学習性能を向上させるための新しいアルゴリズムCIFALを提案する。
実験により、CIFALは励磁場学習において最先端の手法より優れていることが示された。
- 参考スコア(独自算出の注目度): 23.507104046870186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Citation field learning is to segment a citation string into fields of
interest such as author, title, and venue. Extracting such fields from
citations is crucial for citation indexing, researcher profile analysis, etc.
User-generated resources like academic homepages and Curriculum Vitae, provide
rich citation field information. However, extracting fields from these
resources is challenging due to inconsistent citation styles, incomplete
sentence syntax, and insufficient training data. To address these challenges,
we propose a novel algorithm, CIFAL (citation field learning by anchor
learning), to boost the citation field learning performance. CIFAL leverages
the anchor learning, which is model-agnostic for any Pre-trained Language
Model, to help capture citation patterns from the data of different citation
styles. The experiments demonstrate that CIFAL outperforms state-of-the-art
methods in citation field learning, achieving a 2.68% improvement in
field-level F1-scores. Extensive analysis of the results further confirms the
effectiveness of CIFAL quantitatively and qualitatively.
- Abstract(参考訳): 引用フィールド学習は、引用文字列を著者、タイトル、会場などの興味のある分野に分割することである。
引用からこれらの分野を抽出することは、引用索引付けや研究者のプロファイル分析などに不可欠である。
学術ホームページやCurriculum Vitaeのようなユーザ生成リソースは、豊富な引用フィールド情報を提供する。
しかし、これらのリソースからフィールドを抽出することは、一貫性のない引用スタイル、不完全文構文、不十分なトレーニングデータのために困難である。
そこで,これらの課題に対処するために,新たなアルゴリズムであるcifal(citation field learning by anchor learning)を提案する。
cifalは、事前学習された言語モデルのモデルに依存しないアンカー学習を利用して、さまざまな引用スタイルのデータから引用パターンをキャプチャする。
実験により、CIFALは励磁場学習における最先端の手法よりも優れており、F1スコアの2.68%の改善が達成されている。
結果の広範な分析により,cifalの有効性が定量的,質的に確認された。
関連論文リスト
- WebCiteS: Attributed Query-Focused Summarization on Chinese Web Search
Results with Citations [36.314460206807745]
我々は,属性付きクエリ中心要約 (AQFS) のタスクを定式化するとともに,7kの人称注釈の要約を引用した中国語データセットであるWebCiteSを提示する。
これらの課題に対処するために、詳細なメトリクスを開発し、自動評価器が文を細かな検証のためにサブステートに分解できるようにする。
論文 参考訳(メタデータ) (2024-03-04T07:06:41Z) - Prefer to Classify: Improving Text Classifiers via Auxiliary Preference
Learning [76.43827771613127]
本稿では、このような補助データアノテーションの新しい代替手段として、入力テキストのペア間のタスク固有の嗜好について検討する。
本稿では、与えられた分類課題と補助的選好の両方を学ぶことの協調効果を享受できる、P2Cと呼ばれる新しいマルチタスク学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T04:04:47Z) - CiteCaseLAW: Citation Worthiness Detection in Caselaw for Legal
Assistive Writing [44.75251805925605]
本稿では,Caselaw Access Project (CAP) の法域における引用・安心度検出のための178万文のラベル付きデータセットを紹介する。
本論文では,様々な深層学習モデルの性能について検討した。
ドメイン固有の事前学習モデルは、他のモデルよりも優れている傾向があり、88%のF1スコアが引用-可視性検出タスクである。
論文 参考訳(メタデータ) (2023-05-03T04:20:56Z) - Inline Citation Classification using Peripheral Context and
Time-evolving Augmentation [23.88211560188731]
本稿では,引用文を用いた談話情報を提供する3Cextという新しいデータセットを提案する。
周辺文とドメイン知識を融合したトランスフォーマーベースのディープニューラルネットワークPeriCiteを提案する。
論文 参考訳(メタデータ) (2023-03-01T09:11:07Z) - A Large Scale Search Dataset for Unbiased Learning to Rank [51.97967284268577]
我々は、非バイアス学習のためのBaidu-ULTRデータセットをランク付けする。
ランダムに12億の検索セッションと7,008のエキスパートアノテートクエリをサンプリングする。
1)本来のセマンティックな特徴と,使用が容易な事前学習言語モデル,(2)位置,表示高さ,抽象表現などの十分な表示情報,(3)居住時間のような検索結果ページ(SERP)に対するリッチなユーザフィードバックを提供する。
論文 参考訳(メタデータ) (2022-07-07T02:37:25Z) - Deep Graph Learning for Anomalous Citation Detection [55.81334139806342]
本稿では,新たな深層グラフ学習モデルであるGLAD(Graph Learning for Anomaly Detection)を提案する。
GLADフレームワーク内ではCPU(Citation PUrpose)と呼ばれるアルゴリズムが提案され,引用テキストに基づく引用の目的が明らかになった。
論文 参考訳(メタデータ) (2022-02-23T09:05:28Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - Knowledge-Rich BERT Embeddings for Readability Assessment [0.0]
本稿では,BERTモデルの情報豊富な埋め込みを共同学習手法により活用する方法を提案する。
提案手法は,英語とフィリピン語のデータセットを用いた可読性評価において,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-06-15T07:37:48Z) - Context-Based Quotation Recommendation [60.93257124507105]
本稿では,新しい文脈対応引用レコメンデーションシステムを提案する。
これは、所定のソース文書から引用可能な段落とトークンの列挙リストを生成する。
音声テキストと関連するニュース記事の収集実験を行う。
論文 参考訳(メタデータ) (2020-05-17T17:49:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。