論文の概要: Talk2Ref: A Dataset for Reference Prediction from Scientific Talks
- arxiv url: http://arxiv.org/abs/2510.24478v1
- Date: Tue, 28 Oct 2025 14:50:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.236228
- Title: Talk2Ref: A Dataset for Reference Prediction from Scientific Talks
- Title(参考訳): Talk2Ref: 科学的講演からの参照予測のためのデータセット
- Authors: Frederik Broy, Maike Züfle, Jan Niehues,
- Abstract要約: 本稿では,対話からの参照予測(Reference Prediction from Talks,RPT)を紹介する。
Talk2Refは,6,279件の講演と43,429件の引用論文を含む,この種の最初の大規模データセットである。
以上の結果から,Talk2Refの微調整は引用予測性能を著しく向上させることが示された。
- 参考スコア(独自算出の注目度): 15.95945265244193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scientific talks are a growing medium for disseminating research, and automatically identifying relevant literature that grounds or enriches a talk would be highly valuable for researchers and students alike. We introduce Reference Prediction from Talks (RPT), a new task that maps long, and unstructured scientific presentations to relevant papers. To support research on RPT, we present Talk2Ref, the first large-scale dataset of its kind, containing 6,279 talks and 43,429 cited papers (26 per talk on average), where relevance is approximated by the papers cited in the talk's corresponding source publication. We establish strong baselines by evaluating state-of-the-art text embedding models in zero-shot retrieval scenarios, and propose a dual-encoder architecture trained on Talk2Ref. We further explore strategies for handling long transcripts, as well as training for domain adaptation. Our results show that fine-tuning on Talk2Ref significantly improves citation prediction performance, demonstrating both the challenges of the task and the effectiveness of our dataset for learning semantic representations from spoken scientific content. The dataset and trained models are released under an open license to foster future research on integrating spoken scientific communication into citation recommendation systems.
- Abstract(参考訳): 科学的な講演は研究を広めるメディアとして成長し、関連する文献を自動的に識別し、講演の根拠や豊かさが研究者や学生にとって非常に価値のあるものになるだろう。
本稿では,対話からの参照予測(Reference Prediction from Talks,RPT)を紹介する。
RPT研究を支援するために,6,279件の講演と43,429件の引用論文(平均26件)を含む,最初の大規模データセットであるTalk2Refを提案する。
我々は、ゼロショット検索シナリオにおける最先端テキスト埋め込みモデルの評価により、強力なベースラインを確立し、Talk2Refで訓練されたデュアルエンコーダアーキテクチャを提案する。
長文の扱い方やドメイン適応の訓練についても検討する。
その結果,Talk2Refの微調整により引用予測性能が大幅に向上し,音声科学コンテンツから意味表現を学習するためのデータセットの有効性と課題が示された。
データセットとトレーニングされたモデルは、引用レコメンデーションシステムに音声科学コミュニケーションを統合する将来の研究を促進するために、オープンライセンスでリリースされている。
関連論文リスト
- ScholarCopilot: Training Large Language Models for Academic Writing with Accurate Citations [45.57178343138677]
我々はScholarCopilotを紹介した。ScholarCopilotは学術書記のための既存の大規模言語モデルを強化するために設計された統合フレームワークである。
ScholarCopilotは、検索トークン[RET]を生成して学術的な参照をいつ取得するかを決定し、引用データベースに問い合わせる。
私たちは1つのフレームワーク内で生成タスクと引用タスクの両方を共同で最適化し、効率を向上します。
論文 参考訳(メタデータ) (2025-04-01T14:12:14Z) - Comprehensive Manuscript Assessment with Text Summarization Using 69707 articles [10.943765373420135]
我々は69707の科学論文から得られた、非常に包括的で大規模な情報のデータセットをキュレートするために、Scopusを利用する。
本稿では,原稿から抽出した意味的特徴と論文メタデータを活用する,インパクトベース分類タスクの深層学習手法を提案する。
論文 参考訳(メタデータ) (2025-03-26T07:56:15Z) - Modeling citation worthiness by using attention-based bidirectional long short-term memory networks and interpretable models [0.0]
本稿では,注目機構と文脈情報を備えたBidirectional Long Short-Term Memory (BiLSTM) ネットワークを提案し,引用を必要とする文を検出する。
我々は、PubMed Open Access Subsetに基づく新しい大規模データセット(PMOA-CITE)を作成します。
論文 参考訳(メタデータ) (2024-05-20T17:45:36Z) - Context-Enhanced Language Models for Generating Multi-Paper Citations [35.80247519023821]
本稿では,Large Language Models (LLMs) を用いて多文文を生成する手法を提案する。
提案手法は,複数文の引用文を含むコヒーレントな段落に終止符を打つ,単一のソース・ペーパーと対象論文の集合を包含する。
論文 参考訳(メタデータ) (2024-04-22T04:30:36Z) - ILCiteR: Evidence-grounded Interpretable Local Citation Recommendation [31.259805200946175]
本稿では,特定の論文を推薦するための証拠を対象とする,根拠に基づく局所引用推薦タスクを紹介する。
単にレコメンデーションを出力する過去の定式化とは異なり、ICCiteRはエビデンスのリストとレコメンデーションペーパーのペアを検索する。
本研究では,エビデンスに基づく局所的引用推薦タスクのための新しいデータセットを提供し,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-03-13T17:38:05Z) - Large Language Models as Zero-Shot Conversational Recommenders [52.57230221644014]
ゼロショット設定における代表的大言語モデルを用いた会話推薦タスクに関する実証的研究を行った。
我々は、人気のあるディスカッションサイトをスクラップして、レコメンデーション関連の会話のデータセットを構築した。
我々は、微調整なしでも、大規模な言語モデルは既存の微調整された会話レコメンデーションモデルより優れていることを観察する。
論文 参考訳(メタデータ) (2023-08-19T15:29:45Z) - CiteBench: A benchmark for Scientific Citation Text Generation [69.37571393032026]
CiteBenchは引用テキスト生成のベンチマークである。
CiteBenchのコードはhttps://github.com/UKPLab/citebench.comで公開しています。
論文 参考訳(メタデータ) (2022-12-19T16:10:56Z) - Tag-Aware Document Representation for Research Paper Recommendation [68.8204255655161]
本稿では,ユーザによって割り当てられたソーシャルタグに基づいて,研究論文の深い意味表現を活用するハイブリッドアプローチを提案する。
提案手法は,評価データが極めて少ない場合でも研究論文の推薦に有効である。
論文 参考訳(メタデータ) (2022-09-08T09:13:07Z) - ConvoSumm: Conversation Summarization Benchmark and Improved Abstractive
Summarization with Argument Mining [61.82562838486632]
我々は、さまざまなオンライン会話形式のニュースコメント、ディスカッションフォーラム、コミュニティ質問応答フォーラム、電子メールスレッドに関する4つの新しいデータセットをクラウドソースする。
我々は、データセットの最先端モデルをベンチマークし、データに関連する特徴を分析します。
論文 参考訳(メタデータ) (2021-06-01T22:17:13Z) - Enhancing Scientific Papers Summarization with Citation Graph [78.65955304229863]
引用グラフを用いて科学論文の要約作業を再定義します。
我々は,141kの研究論文を異なる領域に格納した,新しい科学論文要約データセットセマンティックスタディネットワーク(ssn)を構築した。
我々のモデルは、事前訓練されたモデルと比較して競争性能を達成することができる。
論文 参考訳(メタデータ) (2021-04-07T11:13:35Z) - A Survey on Text Classification: From Shallow to Deep Learning [83.47804123133719]
過去10年は、ディープラーニングが前例のない成功を収めたために、この分野の研究が急増している。
本稿では,1961年から2021年までの最先端のアプローチを見直し,そのギャップを埋める。
特徴抽出と分類に使用されるテキストとモデルに基づいて,テキスト分類のための分類を作成する。
論文 参考訳(メタデータ) (2020-08-02T00:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。