論文の概要: PRISM: Fine-Grained Paper-to-Paper Retrieval with Multi-Aspect-Aware Query Optimization
- arxiv url: http://arxiv.org/abs/2507.10057v1
- Date: Mon, 14 Jul 2025 08:41:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:24.562625
- Title: PRISM: Fine-Grained Paper-to-Paper Retrieval with Multi-Aspect-Aware Query Optimization
- Title(参考訳): PRISM:多視点問合せ最適化による細粒紙-紙間検索
- Authors: Sangwoo Park, Jinheon Baek, Soyeong Jeong, Sung Ju Hwang,
- Abstract要約: PRISMは文書から文書への検索手法であり、クエリと候補文書の両方に対して、複数のきめ細かい表現を導入している。
SciFullBenchは、クエリと候補の両方のフルペーパーの完全かつセグメンテーションされたコンテキストが利用できる新しいベンチマークである。
実験の結果、PRISMは既存の検索基準よりも平均4.3%性能が向上した。
- 参考スコア(独自算出の注目度): 61.783280234747394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scientific paper retrieval, particularly framed as document-to-document retrieval, aims to identify relevant papers in response to a long-form query paper, rather than a short query string. Previous approaches to this task have focused on abstracts, embedding them into dense vectors as surrogates for full documents and calculating similarity across them, although abstracts provide only sparse and high-level summaries. To address this, we propose PRISM, a novel document-to-document retrieval method that introduces multiple, fine-grained representations for both the query and candidate papers. In particular, each query paper is decomposed into multiple aspect-specific views and individually embedded, which are then matched against candidate papers similarity segmented to consider their multifaceted dimensions. Moreover, we present SciFullBench, a novel benchmark in which the complete and segmented context of full papers for both queries and candidates is available. Then, experimental results show that PRISM improves performance by an average of 4.3% over existing retrieval baselines.
- Abstract(参考訳): 科学論文検索(特に文書間検索)は、短いクエリ文字列ではなく、長い形式のクエリペーパーに応答して関連論文を特定することを目的としている。
この課題に対するこれまでのアプローチは抽象論に焦点を合わせ、それらを全文書の代理として密度の高いベクトルに埋め込んで、それらの類似性を計算してきたが、抽象論はスパースとハイレベルな要約しか提供していない。
そこで本研究では,クエリと候補文書の両方に対して,複数のきめ細やかな表現を導入し,文書から文書への新たな検索手法であるPRISMを提案する。
特に、各問合せ用紙は複数のアスペクト固有ビューに分解され、個別に埋め込みされ、それらが分割された候補論文の類似性とマッチングされて、それらの多面的次元を考慮される。
さらに,提案するSciFullBenchは,クエリと候補の両方に対する全論文の完全かつセグメンテーションされたコンテキストが利用できる,新しいベンチマークである。
実験の結果,PRISMは既存の検索基準よりも平均4.3%向上していることがわかった。
関連論文リスト
- LLM-Based Compact Reranking with Document Features for Scientific Retrieval [30.341167520613197]
我々は,CoRankと呼ばれる科学検索のためのトレーニング不要な,モデルに依存しないセマンティックリグレードフレームワークを提案する。
CoRankには3つのステージがある: ドキュメントレベルの機能のオフライン抽出、これらのコンパクト表現を使用した粗いリランク、そしてステージから上位候補のフルテキストに微妙なリランク。
LitSearchとCSFCubeの実験によると、CoRankは異なるLLMバックボーン間でのリランク性能を大幅に改善している。
論文 参考訳(メタデータ) (2025-05-19T22:10:27Z) - Learning More Effective Representations for Dense Retrieval through Deliberate Thinking Before Search [65.53881294642451]
ディリベレート思考に基づくDense Retriever (DEBATER)
DEBATERは、ステップバイステップの思考プロセスを通じて、より効果的な文書表現を学習できるようにすることにより、最近の密集型検索機能を強化している。
実験の結果,DEBATERはいくつかのベンチマークで既存手法よりも優れていた。
論文 参考訳(メタデータ) (2025-02-18T15:56:34Z) - Enhanced Retrieval of Long Documents: Leveraging Fine-Grained Block Representations with Large Language Models [24.02950598944251]
文書の関連性評価の精度を高めることを目的とした,新しい,きめ細かいアプローチを提案する。
提案手法はまず,長い文書をブロックに分割し,それぞれを LLM を用いて埋め込む。
重み付け和法により,クエリブロック関連度スコアを集約し,ドキュメント全体のクエリに対する総合的なスコアを得る。
論文 参考訳(メタデータ) (2025-01-28T16:03:52Z) - MMDocIR: Benchmarking Multi-Modal Retrieval for Long Documents [26.39534684408116]
この研究は、ページレベルとレイアウトレベルの検索という2つの異なるタスクを含むMMDocIRという新しいベンチマークを導入する。
MMDocIRベンチマークは、専門家によって注釈付けされた1,685の質問と、ブートストラップ付きラベル付き173,843の質問を含む、豊富なデータセットで構成されている。
論文 参考訳(メタデータ) (2025-01-15T14:30:13Z) - Unified Multimodal Interleaved Document Representation for Retrieval [57.65409208879344]
複数のモダリティでインターリーブされた文書を階層的に埋め込む手法を提案する。
セグメント化されたパスの表現を1つのドキュメント表現にマージする。
我々は,本手法が関連するベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-10-03T17:49:09Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - Mining both Commonality and Specificity from Multiple Documents for
Multi-Document Summarization [1.4629756274247374]
多文書要約タスクでは、設計した要約者が、原文書の重要な情報をカバーする短いテキストを生成する必要がある。
本稿では,文書の階層的クラスタリングに基づくマルチドキュメント要約手法を提案する。
論文 参考訳(メタデータ) (2023-03-05T14:25:05Z) - Generating a Structured Summary of Numerous Academic Papers: Dataset and
Method [20.90939310713561]
本稿では,各トピックに関する多数の学術論文の包括的な要約を生成するための,最初の大規模データセットであるBigSurveyを提案する。
我々は,7万件以上の調査論文から対象要約を収集し,その430万件の参考論文の要約を入力文書として活用する。
数十の入力文書から多種多様な内容を整理するために,カテゴリベースアライメント・スパース・トランスフォーマー (CAST) と呼ばれる要約手法を提案する。
論文 参考訳(メタデータ) (2023-02-09T11:42:07Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - Multi-View Document Representation Learning for Open-Domain Dense
Retrieval [87.11836738011007]
本稿では,多視点文書表現学習フレームワークを提案する。
ドキュメントを表現し、異なるクエリに合わせるように強制するために、マルチビューの埋め込みを作成することを目的としている。
実験により,本手法は最近の成果より優れ,最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-03-16T03:36:38Z) - CODER: An efficient framework for improving retrieval through
COntextualized Document Embedding Reranking [11.635294568328625]
本稿では,最小計算コストで広範囲の検索モデルの性能を向上させるためのフレームワークを提案する。
ベース密度検索法により抽出された事前計算された文書表現を利用する。
実行時に第一段階のメソッドの上に無視可能な計算オーバーヘッドを発生させ、最先端の高密度検索手法と簡単に組み合わせられるようにする。
論文 参考訳(メタデータ) (2021-12-16T10:25:26Z) - Text Summarization with Latent Queries [60.468323530248945]
本稿では,LaQSumについて紹介する。LaQSumは,既存の問合せ形式と抽象的な要約のための文書から遅延クエリを学習する,最初の統一テキスト要約システムである。
本システムでは, 潜伏クエリモデルと条件付き言語モデルとを協調的に最適化し, ユーザがテスト時に任意のタイプのクエリをプラグイン・アンド・プレイできるようにする。
本システムでは,クエリタイプ,文書設定,ターゲットドメインの異なる要約ベンチマークにおいて,強力な比較システムの性能を強く向上させる。
論文 参考訳(メタデータ) (2021-05-31T21:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。