論文の概要: CiteBART: Learning to Generate Citations for Local Citation Recommendation
- arxiv url: http://arxiv.org/abs/2412.17534v2
- Date: Wed, 09 Apr 2025 20:23:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 15:12:48.891725
- Title: CiteBART: Learning to Generate Citations for Local Citation Recommendation
- Title(参考訳): CiteBART: ローカルなCitationレコメンデーションのためのCitation生成学習
- Authors: Ege Yiğit Çelik, Selma Tekir,
- Abstract要約: 本稿では,エンコーダ-デコーダアーキテクチャにおける励磁型事前学習について述べる。
著者による引用トークンは、ローカル引用レコメンデーション(LCR)を満たすためにそれらを再構築することを学ぶためにマスクされる
CiteBART-GlobalはFullTextPeerReadデータセットを除いて、LCRベンチマークで最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 0.138120109831448
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Local citation recommendation (LCR) suggests a set of papers for a citation placeholder within a given context. The task has evolved as generative approaches have become more promising than the traditional pre-fetch and re-rank-based state-of-the-art approaches. This paper introduces citation-specific pre-training within an encoder-decoder architecture, where author-date citation tokens are masked to learn to reconstruct them to fulfill LCR. There are two variants for this pre-training. In the local context-only base scheme (CiteBART-Base), the citation token in a local context is masked to learn to predict the citation. The global version (CiteBART-Global) extends the local context with the citing paper's title and abstract to enrich the learning signal. CiteBART-Global achieves state-of-the-art performance on LCR benchmarks except for the FullTextPeerRead dataset, which is quite small to see the advantage of generative pre-training. The effect is significant in the larger benchmarks, e.g., Refseer and ArXiv., with the Refseer benchmark-trained model emerging as the best-performing model. We perform comprehensive experiments, including an ablation study, a qualitative analysis, and a taxonomy of hallucinations with detailed statistics. Our analyses confirm that CiteBART-Global has a cross-dataset generalization capability; the macro hallucination rate (MaHR) at the top-3 predictions is 4\%, and when the ground-truth is in the top-k prediction list, the hallucination tendency in the other predictions drops significantly.
- Abstract(参考訳): 局所引用レコメンデーション(LCR)は、与えられたコンテキスト内で引用プレースホルダーのための一連の論文を提案する。
この課題は、ジェネレーティブアプローチが従来のプレフェッチや再ランクベースの最先端アプローチよりも有望になるにつれて進化してきた。
本稿では,エンコーダ-デコーダアーキテクチャにおける引用専用事前学習について紹介する。
この事前訓練には2つのバリエーションがある。
ローカルコンテキストのみのベーススキーム(CiteBART-Base)では、ローカルコンテキストにおける引用トークンをマスクして、引用を予測する。
グローバルバージョン(CiteBART-Global)は、引用する論文のタイトルと抽象概念を使って、学習シグナルを豊かにするために、ローカルコンテキストを拡張している。
CiteBART-Globalは、FullTextPeerReadデータセットを除いて、LCRベンチマークの最先端のパフォーマンスを実現している。
この効果は、例えば、Refseer、ArXivといったより大きなベンチマークにおいて重要である。
最高のパフォーマンスモデルとして、Refseerベンチマークトレーニングモデルが登場している。
我々は、アブレーション研究、質的分析、詳細な統計による幻覚の分類を含む総合的な実験を行う。
解析の結果,CiteBART-Global はクロスデータセットの一般化能力を有しており,上位3つの予測におけるマクロ幻覚率 (MaHR) は 4 % であり,基底がトップk の予測リストにある場合,他の予測における幻覚傾向は著しく低下することがわかった。
関連論文リスト
- HLM-Cite: Hybrid Language Model Workflow for Text-based Scientific Citation Prediction [14.731720495144112]
本稿では,表面的な言及を超越した批判的参照を識別する,コア引用という新しい概念を紹介する。
我々は、引用予測のための$textbfH$ybrid $textbfL$anguage $textbfM$odelワークフローである$textbfHLM-Citeを提案する。
我々はHLM-Citeを19分野にわたって評価し,SOTA法と比較して17.6%の性能向上を示した。
論文 参考訳(メタデータ) (2024-10-10T10:46:06Z) - Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - ALiiCE: Evaluating Positional Fine-grained Citation Generation [54.19617927314975]
本稿では,微細な引用生成のための最初の自動評価フレームワークであるALiiCEを提案する。
我々のフレームワークはまず、文のクレームを依存性分析によって原子クレームに解析し、次に原子クレームレベルでの引用品質を計算する。
複数大言語モデルの2つの長文QAデータセット上での位置的きめ細かな引用生成性能を評価する。
論文 参考訳(メタデータ) (2024-06-19T09:16:14Z) - Large Language Models Reflect Human Citation Patterns with a Heightened Citation Bias [1.7812428873698407]
サイテーションの実践は科学的知識の構造を形成するのに不可欠であるが、それらは現代の規範や偏見の影響を受けていることが多い。
LLM(Large Language Models)の出現は、これらのプラクティスに新たなダイナミクスをもたらす。
本稿では,これらの特徴を,AAAI,NeurIPS,ICML,ICLRのデータセットを用いて解析する。
論文 参考訳(メタデータ) (2024-05-24T17:34:32Z) - ILCiteR: Evidence-grounded Interpretable Local Citation Recommendation [31.259805200946175]
本稿では,特定の論文を推薦するための証拠を対象とする,根拠に基づく局所引用推薦タスクを紹介する。
単にレコメンデーションを出力する過去の定式化とは異なり、ICCiteRはエビデンスのリストとレコメンデーションペーパーのペアを検索する。
本研究では,エビデンスに基づく局所的引用推薦タスクのための新しいデータセットを提供し,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-03-13T17:38:05Z) - Contextualizing Generated Citation Texts [11.531517736126657]
本稿では,引用テキスト生成タスクの簡単な修正を提案する。
生成ターゲットは、引用そのものだけではなく、ターゲットの引用を含むコンテキストウィンドウ全体である。
論文 参考訳(メタデータ) (2024-02-28T05:24:21Z) - CiteBench: A benchmark for Scientific Citation Text Generation [69.37571393032026]
CiteBenchは引用テキスト生成のベンチマークである。
CiteBenchのコードはhttps://github.com/UKPLab/citebench.comで公開しています。
論文 参考訳(メタデータ) (2022-12-19T16:10:56Z) - Controllable Citation Sentence Generation with Language Models [11.186252009101077]
本稿では,テキストのコンテキスト,参照された論文のコンテキスト,および所望の制御属性を構造化テンプレートに統合し,次世代の予測を通じて言語モデル(LM)を微調整する手法を提案する。
提案したワークフローは、引用属性の提案と条件付き引用生成を1つのLMに調和して組み合わせ、より良いユーザ制御を実現する。
論文 参考訳(メタデータ) (2022-11-14T01:54:08Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - QuoteR: A Benchmark of Quote Recommendation for Writing [80.83859760380616]
QuoteRと呼ばれる大規模かつ完全にオープンな引用レコメンデーションデータセットを構築します。
我々はQuoteR上で既存の引用レコメンデーション手法を広範囲に評価する。
提案手法は,QuoteRの3つの部分すべてにおいて,従来の手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-02-26T14:01:44Z) - Towards generating citation sentences for multiple references with
intent control [86.53829532976303]
We build a novel generation model with the Fusion-in-Decoder approach to handlee with multiple long inputs。
実験により,提案手法は引用文を生成するためのより包括的な特徴を提供することが示された。
論文 参考訳(メタデータ) (2021-12-02T15:32:24Z) - Local Citation Recommendation with Hierarchical-Attention Text Encoder
and SciBERT-based Reranking [6.456347800676685]
BM25はプレフェッチの難しいアプローチであることが判明した。
本稿では,階層型アテンションネットワークによって構築されたテキスト埋め込みの近傍探索によるプレフェッチについて検討する。
SciBERTリランカと組み合わせて、局所的な引用推薦タスクを微調整すると、階層的アテンションエンコーダ(Hatten)は、与えられた候補がリランクされる前に、高いプレフェッチリコールを行う。
論文 参考訳(メタデータ) (2021-12-02T13:20:26Z) - Context-Aware Legal Citation Recommendation using Deep Learning [4.157772749568094]
弁護士や裁判官は、決定を起草しながら引用する適切な法的権限を研究するのに多くの時間を費やしている。
我々は,意見の起草過程における効率向上に役立つ引用推薦ツールを開発した。
論文 参考訳(メタデータ) (2021-06-20T23:23:11Z) - Citations are not opinions: a corpus linguistics approach to
understanding how citations are made [0.0]
引用内容分析の重要な問題は、引用の異なるクラスを特徴付ける言語構造を見つけることである。
本研究では,分類済みの引用コーパスの大規模なサンプルから始めて,発声スマート引用データセットの各クラスから200万の引用を行う。
各引用型の比較表を生成することにより,引用型を特徴付ける興味深い言語特徴を多数提示する。
論文 参考訳(メタデータ) (2021-04-16T12:52:27Z) - Enhancing Scientific Papers Summarization with Citation Graph [78.65955304229863]
引用グラフを用いて科学論文の要約作業を再定義します。
我々は,141kの研究論文を異なる領域に格納した,新しい科学論文要約データセットセマンティックスタディネットワーク(ssn)を構築した。
我々のモデルは、事前訓練されたモデルと比較して競争性能を達成することができる。
論文 参考訳(メタデータ) (2021-04-07T11:13:35Z) - Towards Making the Most of Context in Neural Machine Translation [112.9845226123306]
我々は、これまでの研究がグローバルな文脈をはっきりと利用しなかったと論じている。
本研究では,各文の局所的文脈を意図的にモデル化する文書レベルNMTフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T03:30:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。