論文の概要: CiteBART: Learning to Generate Citations for Local Citation Recommendation
- arxiv url: http://arxiv.org/abs/2412.17534v2
- Date: Wed, 09 Apr 2025 20:23:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 12:23:34.132738
- Title: CiteBART: Learning to Generate Citations for Local Citation Recommendation
- Title(参考訳): CiteBART: ローカルなCitationレコメンデーションのためのCitation生成学習
- Authors: Ege Yiğit Çelik, Selma Tekir,
- Abstract要約: 本稿では,エンコーダ-デコーダアーキテクチャにおける励磁型事前学習について述べる。
著者による引用トークンは、ローカル引用レコメンデーション(LCR)を満たすためにそれらを再構築することを学ぶためにマスクされる
CiteBART-GlobalはFullTextPeerReadデータセットを除いて、LCRベンチマークで最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 0.138120109831448
- License:
- Abstract: Local citation recommendation (LCR) suggests a set of papers for a citation placeholder within a given context. The task has evolved as generative approaches have become more promising than the traditional pre-fetch and re-rank-based state-of-the-art approaches. This paper introduces citation-specific pre-training within an encoder-decoder architecture, where author-date citation tokens are masked to learn to reconstruct them to fulfill LCR. There are two variants for this pre-training. In the local context-only base scheme (CiteBART-Base), the citation token in a local context is masked to learn to predict the citation. The global version (CiteBART-Global) extends the local context with the citing paper's title and abstract to enrich the learning signal. CiteBART-Global achieves state-of-the-art performance on LCR benchmarks except for the FullTextPeerRead dataset, which is quite small to see the advantage of generative pre-training. The effect is significant in the larger benchmarks, e.g., Refseer and ArXiv., with the Refseer benchmark-trained model emerging as the best-performing model. We perform comprehensive experiments, including an ablation study, a qualitative analysis, and a taxonomy of hallucinations with detailed statistics. Our analyses confirm that CiteBART-Global has a cross-dataset generalization capability; the macro hallucination rate (MaHR) at the top-3 predictions is 4\%, and when the ground-truth is in the top-k prediction list, the hallucination tendency in the other predictions drops significantly.
- Abstract(参考訳): 局所引用レコメンデーション(LCR)は、与えられたコンテキスト内で引用プレースホルダーのための一連の論文を提案する。
この課題は、ジェネレーティブアプローチが従来のプレフェッチや再ランクベースの最先端アプローチよりも有望になるにつれて進化してきた。
本稿では,エンコーダ-デコーダアーキテクチャにおける引用専用事前学習について紹介する。
この事前訓練には2つのバリエーションがある。
ローカルコンテキストのみのベーススキーム(CiteBART-Base)では、ローカルコンテキストにおける引用トークンをマスクして、引用を予測する。
グローバルバージョン(CiteBART-Global)は、引用する論文のタイトルと抽象概念を使って、学習シグナルを豊かにするために、ローカルコンテキストを拡張している。
CiteBART-Globalは、FullTextPeerReadデータセットを除いて、LCRベンチマークの最先端のパフォーマンスを実現している。
この効果は、例えば、Refseer、ArXivといったより大きなベンチマークにおいて重要である。
最高のパフォーマンスモデルとして、Refseerベンチマークトレーニングモデルが登場している。
我々は、アブレーション研究、質的分析、詳細な統計による幻覚の分類を含む総合的な実験を行う。
解析の結果,CiteBART-Global はクロスデータセットの一般化能力を有しており,上位3つの予測におけるマクロ幻覚率 (MaHR) は 4 % であり,基底がトップk の予測リストにある場合,他の予測における幻覚傾向は著しく低下することがわかった。
関連論文リスト
- SelfCite: Self-Supervised Alignment for Context Attribution in Large Language Models [51.90867482317985]
SelfCiteは自己教師型のアプローチで、LLMを調整して、生成された応答における文に対する高品質できめ細かい文レベルの引用を生成する。
コストと労働集約的なアノテーションに頼る代わりに、SelfCiteはLLM自体が提供する報酬シグナルをコンテキストアブレーションを通じて活用する。
SelfCiteの有効性は、5つの長文質問応答タスクにわたるLongBench-Citeベンチマークにおいて、引用F1を5.3ポイントまで増やすことによって示される。
論文 参考訳(メタデータ) (2025-02-13T18:55:13Z) - Citation Recommendation based on Argumentative Zoning of User Queries [7.596930973436683]
議論的区分とは、科学的文学における議論的かつ修辞的な構造を特定することである。
本稿では,引用レコメンデーションと議論的偏差分類のためのマルチタスク学習モデルを構築した。
論文 参考訳(メタデータ) (2025-01-30T12:08:00Z) - ALiiCE: Evaluating Positional Fine-grained Citation Generation [54.19617927314975]
本稿では,微細な引用生成のための最初の自動評価フレームワークであるALiiCEを提案する。
我々のフレームワークはまず、文のクレームを依存性分析によって原子クレームに解析し、次に原子クレームレベルでの引用品質を計算する。
複数大言語モデルの2つの長文QAデータセット上での位置的きめ細かな引用生成性能を評価する。
論文 参考訳(メタデータ) (2024-06-19T09:16:14Z) - ILCiteR: Evidence-grounded Interpretable Local Citation Recommendation [31.259805200946175]
本稿では,特定の論文を推薦するための証拠を対象とする,根拠に基づく局所引用推薦タスクを紹介する。
単にレコメンデーションを出力する過去の定式化とは異なり、ICCiteRはエビデンスのリストとレコメンデーションペーパーのペアを検索する。
本研究では,エビデンスに基づく局所的引用推薦タスクのための新しいデータセットを提供し,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-03-13T17:38:05Z) - Contextualizing Generated Citation Texts [11.531517736126657]
本稿では,引用テキスト生成タスクの簡単な修正を提案する。
生成ターゲットは、引用そのものだけではなく、ターゲットの引用を含むコンテキストウィンドウ全体である。
論文 参考訳(メタデータ) (2024-02-28T05:24:21Z) - CiteBench: A benchmark for Scientific Citation Text Generation [69.37571393032026]
CiteBenchは引用テキスト生成のベンチマークである。
CiteBenchのコードはhttps://github.com/UKPLab/citebench.comで公開しています。
論文 参考訳(メタデータ) (2022-12-19T16:10:56Z) - QuoteR: A Benchmark of Quote Recommendation for Writing [80.83859760380616]
QuoteRと呼ばれる大規模かつ完全にオープンな引用レコメンデーションデータセットを構築します。
我々はQuoteR上で既存の引用レコメンデーション手法を広範囲に評価する。
提案手法は,QuoteRの3つの部分すべてにおいて,従来の手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-02-26T14:01:44Z) - Towards generating citation sentences for multiple references with
intent control [86.53829532976303]
We build a novel generation model with the Fusion-in-Decoder approach to handlee with multiple long inputs。
実験により,提案手法は引用文を生成するためのより包括的な特徴を提供することが示された。
論文 参考訳(メタデータ) (2021-12-02T15:32:24Z) - Citations are not opinions: a corpus linguistics approach to
understanding how citations are made [0.0]
引用内容分析の重要な問題は、引用の異なるクラスを特徴付ける言語構造を見つけることである。
本研究では,分類済みの引用コーパスの大規模なサンプルから始めて,発声スマート引用データセットの各クラスから200万の引用を行う。
各引用型の比較表を生成することにより,引用型を特徴付ける興味深い言語特徴を多数提示する。
論文 参考訳(メタデータ) (2021-04-16T12:52:27Z) - Enhancing Scientific Papers Summarization with Citation Graph [78.65955304229863]
引用グラフを用いて科学論文の要約作業を再定義します。
我々は,141kの研究論文を異なる領域に格納した,新しい科学論文要約データセットセマンティックスタディネットワーク(ssn)を構築した。
我々のモデルは、事前訓練されたモデルと比較して競争性能を達成することができる。
論文 参考訳(メタデータ) (2021-04-07T11:13:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。