論文の概要: Overview of SCIDOCA 2025 Shared Task on Citation Prediction, Discovery, and Placement
- arxiv url: http://arxiv.org/abs/2509.24283v1
- Date: Mon, 29 Sep 2025 04:55:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.752838
- Title: Overview of SCIDOCA 2025 Shared Task on Citation Prediction, Discovery, and Placement
- Title(参考訳): 循環予測・発見・配置に関するSCIDOCA 2025共有課題の概要
- Authors: An Dao, Vu Tran, Le-Minh Nguyen, Yuji Matsumoto,
- Abstract要約: 本稿では,SCIDOCA 2025共有タスクの概要を紹介する。
タスクは、Citation Discovery、Masked Citation Prediction、Citation Sentence Predictionの3つのサブタスクに分けられる。
我々はセマンティック・スカラー・オープン・リサーチ・コーパス(S2ORC)から構築した大規模データセットを公開し、6万以上の注釈付き段落とキュレートされた参照セットを含む。
- 参考スコア(独自算出の注目度): 6.477441946742945
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present an overview of the SCIDOCA 2025 Shared Task, which focuses on citation discovery and prediction in scientific documents. The task is divided into three subtasks: (1) Citation Discovery, where systems must identify relevant references for a given paragraph; (2) Masked Citation Prediction, which requires selecting the correct citation for masked citation slots; and (3) Citation Sentence Prediction, where systems must determine the correct reference for each cited sentence. We release a large-scale dataset constructed from the Semantic Scholar Open Research Corpus (S2ORC), containing over 60,000 annotated paragraphs and a curated reference set. The test set consists of 1,000 paragraphs from distinct papers, each annotated with ground-truth citations and distractor candidates. A total of seven teams registered, with three submitting results. We report performance metrics across all subtasks and analyze the effectiveness of submitted systems. This shared task provides a new benchmark for evaluating citation modeling and encourages future research in scientific document understanding. The dataset and task materials are publicly available at https://github.com/daotuanan/scidoca2025-shared-task.
- Abstract(参考訳): 本稿では,SCIDOCA 2025共有タスクの概要を紹介する。
課題は,(1)引用文の関連参照を識別するシステムであるCitation Discovery,(2)仮面引用スロットの正しい引用を選択する必要のある仮面引用予測,(3)引用文の正しい参照を決定するシステムであるCitation Sentence Predictionの3つのサブタスクに分けられる。
我々はセマンティック・スカラー・オープン・リサーチ・コーパス(S2ORC)から構築した大規模データセットを公開し、6万以上の注釈付き段落とキュレートされた参照セットを含む。
テストセットは、異なる論文から1,000の段落で構成され、それぞれに接頭辞と気晴らし候補が注釈付けされている。
合計7チームが登録され、3チームが応募した。
本報告では,全サブタスクのパフォーマンス指標を報告し,提案システムの有効性について分析する。
この共有タスクは、引用モデリングを評価するための新しいベンチマークを提供し、科学文書理解における将来の研究を促進する。
データセットとタスク資料はhttps://github.com/daotuanan/scidoca2025-shared-task.comで公開されている。
関連論文リスト
- Team LA at SCIDOCA shared task 2025: Citation Discovery via relation-based zero-shot retrieval [0.8114880112033646]
Citation Discovery Shared Taskは、所定の項の候補プールからの正しい引用を予測することに焦点を当てている。
本稿では,まず,与えられた段落から抽出した関係特徴に基づいて,トップkの最も類似した抽象概念を抽出するシステムを開発する。
このサブセットから、最も関連性の高い引用を正確に識別するために、LLM(Large Language Model)を利用する。
論文 参考訳(メタデータ) (2025-06-23T06:01:21Z) - Enriching Social Science Research via Survey Item Linking [11.902701975866595]
本研究では,SIL(Survey Item Linking)と呼ばれるタスクを2段階に分けてモデル化する。
この目的のために、20,454の英語文とドイツ語文からなる高品質でリッチな注釈付きデータセットを作成します。
タスクが実現可能であることを実証するが、エラーが第1段階から伝播し、全体のタスク性能が低下するのを観察する。
論文 参考訳(メタデータ) (2024-12-20T12:14:33Z) - The Power of Summary-Source Alignments [62.76959473193149]
多文書要約(MDS)は難しい課題であり、しばしばサリエンスと冗長性検出のサブタスクに分解される。
参照要約とそのソース文書間の対応する文のアライメントを利用して、トレーニングデータを生成する。
本稿では,よりきめ細かな提案スパンレベルで適用することで,要約ソースアライメントフレームワークを拡張することを提案する。
論文 参考訳(メタデータ) (2024-06-02T19:35:19Z) - CiteBench: A benchmark for Scientific Citation Text Generation [69.37571393032026]
CiteBenchは引用テキスト生成のベンチマークである。
CiteBenchのコードはhttps://github.com/UKPLab/citebench.comで公開しています。
論文 参考訳(メタデータ) (2022-12-19T16:10:56Z) - IAM: A Comprehensive and Large-Scale Dataset for Integrated Argument
Mining Tasks [59.457948080207174]
本稿では,一連の議論マイニングタスクに適用可能なIAMという,包括的で大規模なデータセットを提案する。
データセットの70k近い文は、引数特性に基づいて完全に注釈付けされている。
議論準備プロセスに関連する2つの新しい統合された議論マイニングタスクを提案する。(1) 姿勢分類付きクレーム抽出(CESC)と(2) クレーム・エビデンス・ペア抽出(CEPE)である。
論文 参考訳(メタデータ) (2022-03-23T08:07:32Z) - Towards generating citation sentences for multiple references with
intent control [86.53829532976303]
We build a novel generation model with the Fusion-in-Decoder approach to handlee with multiple long inputs。
実験により,提案手法は引用文を生成するためのより包括的な特徴を提供することが示された。
論文 参考訳(メタデータ) (2021-12-02T15:32:24Z) - On the Use of Context for Predicting Citation Worthiness of Sentences in
Scholarly Articles [10.28696219236292]
この問題を階層的BiLSTMモデルを用いて解いたシーケンスラベリングタスクとして定式化する。
我々は200万以上の文とそのラベルを含む新しいベンチマークデータセットをコントリビュートする。
本研究は,引用価値のための文脈埋め込みと文脈埋め込みの利点を定量化する。
論文 参考訳(メタデータ) (2021-04-18T21:47:30Z) - Enhancing Scientific Papers Summarization with Citation Graph [78.65955304229863]
引用グラフを用いて科学論文の要約作業を再定義します。
我々は,141kの研究論文を異なる領域に格納した,新しい科学論文要約データセットセマンティックスタディネットワーク(ssn)を構築した。
我々のモデルは、事前訓練されたモデルと比較して競争性能を達成することができる。
論文 参考訳(メタデータ) (2021-04-07T11:13:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。