論文の概要: CASPER: Concept-integrated Sparse Representation for Scientific Retrieval
- arxiv url: http://arxiv.org/abs/2508.13394v1
- Date: Mon, 18 Aug 2025 23:00:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.737441
- Title: CASPER: Concept-integrated Sparse Representation for Scientific Retrieval
- Title(参考訳): CASPER:科学検索のための概念統合スパース表現
- Authors: Lam Thanh Do, Linh Van Nguyen, David Fu, Kevin Chen-Chuan Chang,
- Abstract要約: 本稿では,トークンとキーフレーズを表現単位とする科学検索のためのスパース検索モデルであるCASPERを提案する。
CASPERはキーフレーズ生成タスクに効果的に利用でき、確立されたCopyRNNとの競合性能を実現する。
- 参考スコア(独自算出の注目度): 17.680327408224237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The exponential growth of scientific literature has made it increasingly difficult for researchers to keep up with the literature. In an attempt to alleviate this problem, we propose CASPER, a sparse retrieval model for scientific search that utilizes tokens and keyphrases as representation units (i.e. dimensions in the sparse embedding space), enabling it to represent queries and documents with research concepts and match them at both granular and conceptual levels. To overcome the lack of suitable training data, we propose mining training data by leveraging scholarly references (i.e. signals that capture how research concepts of papers are expressed in different settings), including titles, citation contexts, author-assigned keyphrases, and co-citations. CASPER outperforms strong dense and sparse retrieval baselines on eight scientific retrieval benchmarks. Moreover, we demonstrate that through simple post-processing, CASPER can be effectively used for the keyphrase generation tasks, achieving competitive performance with the established CopyRNN while producing more diverse keyphrases and being nearly four times faster.
- Abstract(参考訳): 科学文献の急激な成長は、研究者が論文に追従することがますます困難になっている。
この問題を軽減するために,トークンとキーフレーズを表現単位として利用する科学検索のためのスパース検索モデルであるCASPERを提案する。
適切なトレーニングデータの欠如を克服するため,学術的基準(論文の研究概念を異なる状況でどのように表現するかを捉えた信号)を活用してマイニングトレーニングデータを提案する。
CASPERは8つの科学的検索ベンチマークにおいて、強い密度とスパースな検索ベースラインを上回っている。
さらに, 単純な後処理により, CASPER をキーフレーズ生成タスクに有効に利用し, 確立した CopyRNN との競合性能を実現し, より多様なキーフレーズを生成し, ほぼ4倍高速であることを示す。
関連論文リスト
- Scientific Paper Retrieval with LLM-Guided Semantic-Based Ranking [32.40639079110799]
SemRankは効率的かつ効率的な紙検索フレームワークである。
クエリ理解と概念ベースのセマンティックインデックスを組み合わせる。
実験の結果、SemRankは様々なベースレトリバーの性能を一貫して改善していることがわかった。
論文 参考訳(メタデータ) (2025-05-27T22:49:18Z) - Self-Compositional Data Augmentation for Scientific Keyphrase Generation [28.912937922090038]
本稿では,キーフレーズ生成のための自己合成データ拡張手法を提案する。
共有キーフレーズに基づく学習用文書の関連性を測定し,類似した文書を組み合わせて合成サンプルを生成する。
論文 参考訳(メタデータ) (2024-11-05T12:22:51Z) - Taxonomy-guided Semantic Indexing for Academic Paper Search [51.07749719327668]
TaxoIndexは学術論文検索のためのセマンティックインデックスフレームワークである。
学術分類学によって導かれる意味指標として、論文から重要な概念を整理する。
既存の高密度レトリバーを強化するために柔軟に使用できる。
論文 参考訳(メタデータ) (2024-10-25T00:00:17Z) - Dense X Retrieval: What Retrieval Granularity Should We Use? [56.90827473115201]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。
本稿では,高密度検索のための新しい検索ユニット,命題を提案する。
実験により、提案のような細粒度単位によるコーパスのインデックス付けは、検索タスクにおける通過レベル単位を著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - SimCKP: Simple Contrastive Learning of Keyphrase Representations [36.88517357720033]
そこで本論文では,(1)文脈認識型フレーズレベルの表現からキーフレーズを抽出する抽出器・ジェネレータと,(2)生成したフレーズのスコアを対応する文書と整列させることで,文書に現れないキーフレーズを生成するリランカと,の2つの段階からなる単純なコントラスト学習フレームワークであるSimCKPを提案する。
論文 参考訳(メタデータ) (2023-10-12T11:11:54Z) - Retrieval Augmentation for Commonsense Reasoning: A Unified Approach [64.63071051375289]
検索強化コモンセンス推論(RACo)の統一的枠組みを提案する。
提案するRACoは,他の知識強化手法よりも優れる。
論文 参考訳(メタデータ) (2022-10-23T23:49:08Z) - Keyphrase Extraction with Dynamic Graph Convolutional Networks and
Diversified Inference [50.768682650658384]
キーワード抽出(KE)は、ある文書でカバーされている概念やトピックを正確に表現するフレーズの集合を要約することを目的としている。
最近のシークエンス・ツー・シークエンス(Seq2Seq)ベースの生成フレームワークはKEタスクで広く使われ、様々なベンチマークで競合性能を得た。
本稿では,この2つの問題を同時に解くために,動的グラフ畳み込みネットワーク(DGCN)を採用することを提案する。
論文 参考訳(メタデータ) (2020-10-24T08:11:23Z) - A Joint Learning Approach based on Self-Distillation for Keyphrase
Extraction from Scientific Documents [29.479331909227998]
キーフレーズ抽出(英: Keyphrase extract)は、文書を最もよく記述するフレーズの小さなセットを抽出するタスクである。
タスクの既存のベンチマークデータセットは、通常、注釈付きドキュメントの数に制限がある。
本稿では, 自己蒸留の考え方に基づく, シンプルで効率的な共同学習手法を提案する。
論文 参考訳(メタデータ) (2020-10-22T18:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。