論文の概要: A Unified Retrieval Framework with Document Ranking and EDU Filtering for Multi-document Summarization
- arxiv url: http://arxiv.org/abs/2504.16711v1
- Date: Wed, 23 Apr 2025 13:41:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 16:13:41.291972
- Title: A Unified Retrieval Framework with Document Ranking and EDU Filtering for Multi-document Summarization
- Title(参考訳): 多文書要約のための文書ランク付けとEDUフィルタリングを併用した統一検索フレームワーク
- Authors: Shiyin Tan, Jaeeon Park, Dongyuan Li, Renhe Jiang, Manabu Okumura,
- Abstract要約: 現在の手法では、検索プロセスの後にトランケーションを適用してコンテキスト長に適合させる。
本稿では,クエリ選択と文書ランキングを統合した検索に基づく新しいフレームワークを提案する。
我々は、複数のMDSデータセット上でのフレームワークを評価し、ROUGEメトリクスの一貫した改善を実証した。
- 参考スコア(独自算出の注目度): 18.13855430873805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the field of multi-document summarization (MDS), transformer-based models have demonstrated remarkable success, yet they suffer an input length limitation. Current methods apply truncation after the retrieval process to fit the context length; however, they heavily depend on manually well-crafted queries, which are impractical to create for each document set for MDS. Additionally, these methods retrieve information at a coarse granularity, leading to the inclusion of irrelevant content. To address these issues, we propose a novel retrieval-based framework that integrates query selection and document ranking and shortening into a unified process. Our approach identifies the most salient elementary discourse units (EDUs) from input documents and utilizes them as latent queries. These queries guide the document ranking by calculating relevance scores. Instead of traditional truncation, our approach filters out irrelevant EDUs to fit the context length, ensuring that only critical information is preserved for summarization. We evaluate our framework on multiple MDS datasets, demonstrating consistent improvements in ROUGE metrics while confirming its scalability and flexibility across diverse model architectures. Additionally, we validate its effectiveness through an in-depth analysis, emphasizing its ability to dynamically select appropriate queries and accurately rank documents based on their relevance scores. These results demonstrate that our framework effectively addresses context-length constraints, establishing it as a robust and reliable solution for MDS.
- Abstract(参考訳): 多文書要約(MDS)の分野では、トランスフォーマーベースのモデルは非常に成功したが、入力長制限に悩まされている。
現在の手法では,検索処理後のトランケーションをコンテキスト長に適合させるが,MDS用の文書セットごとに作成できない,手作業による精巧なクエリに大きく依存する。
さらに、これらの手法は粗粒度で情報を検索し、無関係な内容が取り込まれる。
これらの問題に対処するために,クエリの選択と文書のランク付けと短縮を統一したプロセスに統合する,新しい検索ベースのフレームワークを提案する。
提案手法は,入力文書から最も有能な小学校談話単位(EDU)を特定し,潜在クエリとして利用する。
これらのクエリは、関連スコアを算出して文書ランキングを導出する。
従来のトランケーションの代わりに、我々のアプローチはコンテキスト長に適合する無関係なEDUをフィルタし、重要な情報のみを要約するために保存する。
我々は、複数のMDSデータセットに関するフレームワークを評価し、ROUGEメトリクスの一貫性のある改善を実証し、多様なモデルアーキテクチャにおけるスケーラビリティと柔軟性を確認した。
さらに,その妥当性を詳細な分析によって検証し,適切なクエリを動的に選択し,関連性スコアに基づいて文書を正確にランク付けする能力を強調した。
これらの結果は,我々のフレームワークがコンテキスト長制約を効果的に処理し,MDSの堅牢で信頼性の高いソリューションとして確立していることを示す。
関連論文リスト
- Learning More Effective Representations for Dense Retrieval through Deliberate Thinking Before Search [65.53881294642451]
ディリベレート思考に基づくDense Retriever (DEBATER)
DEBATERは、ステップバイステップの思考プロセスを通じて、より効果的な文書表現を学習できるようにすることにより、最近の密集型検索機能を強化している。
実験の結果,DEBATERはいくつかのベンチマークで既存手法よりも優れていた。
論文 参考訳(メタデータ) (2025-02-18T15:56:34Z) - Enhanced Retrieval of Long Documents: Leveraging Fine-Grained Block Representations with Large Language Models [24.02950598944251]
文書の関連性評価の精度を高めることを目的とした,新しい,きめ細かいアプローチを提案する。
提案手法はまず,長い文書をブロックに分割し,それぞれを LLM を用いて埋め込む。
重み付け和法により,クエリブロック関連度スコアを集約し,ドキュメント全体のクエリに対する総合的なスコアを得る。
論文 参考訳(メタデータ) (2025-01-28T16:03:52Z) - MMDocIR: Benchmarking Multi-Modal Retrieval for Long Documents [26.39534684408116]
この研究はMMDocIRと呼ばれる新しいベンチマークを導入し、ページレベルとレイアウトレベルの検索という2つの異なるタスクを含んでいる。
MMDocIRベンチマークは,1,685問の注釈付きラベルと173,843問の自己ストラップ付きラベルを備えた,豊富なデータセットで構成されている。
論文 参考訳(メタデータ) (2025-01-15T14:30:13Z) - VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。
視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:24:55Z) - Unified Multimodal Interleaved Document Representation for Retrieval [57.65409208879344]
複数のモダリティでインターリーブされた文書を階層的に埋め込む手法を提案する。
セグメント化されたパスの表現を1つのドキュメント表現にマージする。
我々は,本手法が関連するベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-10-03T17:49:09Z) - ODSum: New Benchmarks for Open Domain Multi-Document Summarization [30.875191848268347]
Open- Domain Multi-Document Summarization (ODMDS) は、大量のドキュメントを一貫性のある簡潔な要約に集約するための重要なツールである。
我々は,クエリに基づく文書要約データセットをODMDSデータセットに処理するためのルールベース手法を提案する。
論文 参考訳(メタデータ) (2023-09-16T11:27:34Z) - Query2doc: Query Expansion with Large Language Models [69.9707552694766]
提案手法はまず,大言語モデル (LLM) をプロンプトすることで擬似文書を生成する。
query2docは、アドホックIRデータセットでBM25のパフォーマンスを3%から15%向上させる。
また,本手法は,ドメイン内およびドメイン外の両方において,最先端の高密度検索に有効である。
論文 参考訳(メタデータ) (2023-03-14T07:27:30Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - CODER: An efficient framework for improving retrieval through
COntextualized Document Embedding Reranking [11.635294568328625]
本稿では,最小計算コストで広範囲の検索モデルの性能を向上させるためのフレームワークを提案する。
ベース密度検索法により抽出された事前計算された文書表現を利用する。
実行時に第一段階のメソッドの上に無視可能な計算オーバーヘッドを発生させ、最先端の高密度検索手法と簡単に組み合わせられるようにする。
論文 参考訳(メタデータ) (2021-12-16T10:25:26Z) - Value Retrieval with Arbitrary Queries for Form-like Documents [50.5532781148902]
フォーム状文書に対する任意のクエリを用いた値検索を提案する。
本手法は,フォームのレイアウトやセマンティクスの理解に基づいて,任意のクエリのターゲット値を予測する。
本稿では,大規模モデル事前学習における文書理解を改善するためのシンプルな文書言語モデリング (simpleDLM) 戦略を提案する。
論文 参考訳(メタデータ) (2021-12-15T01:12:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。