論文の概要: ODSum: New Benchmarks for Open Domain Multi-Document Summarization
- arxiv url: http://arxiv.org/abs/2309.08960v1
- Date: Sat, 16 Sep 2023 11:27:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 18:12:00.532305
- Title: ODSum: New Benchmarks for Open Domain Multi-Document Summarization
- Title(参考訳): ODSum: Open Domain Multi-Document Summarizationの新しいベンチマーク
- Authors: Yijie Zhou, Kejian Shi, Wencai Zhang, Yixin Liu, Yilun Zhao, Arman
Cohan
- Abstract要約: Open- Domain Multi-Document Summarization (ODMDS) は、大量のドキュメントを一貫性のある簡潔な要約に集約するための重要なツールである。
我々は,クエリに基づく文書要約データセットをODMDSデータセットに処理するためのルールベース手法を提案する。
- 参考スコア(独自算出の注目度): 30.875191848268347
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-domain Multi-Document Summarization (ODMDS) is a critical tool for
condensing vast arrays of documents into coherent, concise summaries. With a
more inter-related document set, there does not necessarily exist a correct
answer for the retrieval, making it hard to measure the retrieving performance.
We propose a rule-based method to process query-based document summarization
datasets into ODMDS datasets. Based on this method, we introduce a novel
dataset, ODSum, a sophisticated case with its document index interdependent and
often interrelated. We tackle ODMDS with the \textit{retrieve-then-summarize}
method, and the performance of a list of retrievers and summarizers is
investigated. Through extensive experiments, we identify variances in
evaluation metrics and provide insights into their reliability. We also found
that LLMs suffer great performance loss from retrieving errors. We further
experimented methods to improve the performance as well as investigate their
robustness against imperfect retrieval. We will release our data and code at
https://github.com/yale-nlp/ODSum.
- Abstract(参考訳): open-domain multi-document summarization (odmds) は、大量の文書をコヒーレントで簡潔な要約にまとめるための重要なツールである。
より関連性の高いドキュメントセットでは、検索に対する正しい回答が存在するとは限らないため、検索性能の測定は困難である。
我々は,クエリに基づく文書要約データセットをODMDSデータセットに処理するためのルールベース手法を提案する。
この手法に基づき,ドキュメントインデックスが相互依存的かつしばしば相互に関連した,新しいデータセット odsum を紹介する。
我々は ODMDS に <textit{retrieve-then-summarize} 法で取り組み,検索者リストと要約者のパフォーマンスについて検討した。
広範な実験を通じて評価指標のばらつきを特定し,信頼性に関する洞察を提供する。
また、LLMはエラーの検索によって大きなパフォーマンス損失を被ることがわかった。
さらに,不完全検索に対するロバスト性を検証し,性能改善のための手法についても検討した。
データとコードはhttps://github.com/yale-nlp/ODSumで公開します。
関連論文リスト
- Attribute or Abstain: Large Language Models as Long Document Assistants [58.32043134560244]
LLMは人間が長い文書を扱うのを助けることができるが、幻覚で知られている。
既存の属性に対するアプローチはRAG設定でのみ評価されている。
これは、検索が不要な長いドキュメント設定とは大きく異なるが、助けになる可能性がある。
そこで本研究では,6種類の多種多様文書タスクのベンチマークであるLABと,異なる大きさの5つのLLMに対する属性に対する異なるアプローチの実験を行う。
論文 参考訳(メタデータ) (2024-07-10T16:16:02Z) - LightPAL: Lightweight Passage Retrieval for Open Domain Multi-Document Summarization [9.739781953744606]
Open-Domain Multi-Document Summarization (ODMDS)は、ユーザクエリに応答して巨大なドキュメントコレクションから要約を生成するタスクである。
ODMDSタスクのオープンエンドクエリでは、従来の検索列サマリズアプローチは不足している。
ODMDSの軽量パス検索手法であるLightPALを提案する。
論文 参考訳(メタデータ) (2024-06-18T10:57:27Z) - PromptReps: Prompting Large Language Models to Generate Dense and Sparse Representations for Zero-Shot Document Retrieval [76.50690734636477]
本稿では,PmptRepsを提案する。このPmptRepsは,トレーニングを必要とせず,コーパス全体から検索できる機能である。
検索システムは、高密度テキスト埋め込みとスパースバッグ・オブ・ワード表現の両方を利用する。
論文 参考訳(メタデータ) (2024-04-29T04:51:30Z) - Non-Parametric Memory Guidance for Multi-Document Summarization [0.0]
本稿では,非パラメトリックメモリと組み合わせたレトリバー誘導モデルを提案する。
このモデルはデータベースから関連する候補を検索し、その候補をコピー機構とソースドキュメントで考慮して要約を生成する。
本手法は,学術論文を含むMultiXScienceデータセットを用いて評価する。
論文 参考訳(メタデータ) (2023-11-14T07:41:48Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - Query2doc: Query Expansion with Large Language Models [69.9707552694766]
提案手法はまず,大言語モデル (LLM) をプロンプトすることで擬似文書を生成する。
query2docは、アドホックIRデータセットでBM25のパフォーマンスを3%から15%向上させる。
また,本手法は,ドメイン内およびドメイン外の両方において,最先端の高密度検索に有効である。
論文 参考訳(メタデータ) (2023-03-14T07:27:30Z) - Open Domain Multi-document Summarization: A Comprehensive Study of Model
Brittleness under Retrieval [42.73076855699184]
マルチドキュメント要約(MDS)は、一連のトピック関連の文書が入力として提供されると仮定する。
タスクを形式化し、既存のデータセット、レトリバー、要約器を使ってブートストラップすることで、より困難な設定について研究する。
論文 参考訳(メタデータ) (2022-12-20T18:41:38Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - Augmenting Document Representations for Dense Retrieval with
Interpolation and Perturbation [49.940525611640346]
ドキュメント拡張(Document Augmentation for dense Retrieval)フレームワークは、ドキュメントの表現をDense Augmentationとperturbationsで強化する。
2つのベンチマークデータセットによる検索タスクにおけるDARの性能評価を行い、ラベル付き文書とラベルなし文書の密集検索において、提案したDARが関連するベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-03-15T09:07:38Z) - Improving Query Representations for Dense Retrieval with Pseudo
Relevance Feedback [29.719150565643965]
本稿では,疑似関連性フィードバック(PRF)を用いて高密度検索のためのクエリ表現を改善する新しいクエリエンコーダであるANCE-PRFを提案する。
ANCE-PRF は BERT エンコーダを使用し、検索モデルである ANCE からクエリとトップ検索されたドキュメントを消費し、関連ラベルから直接クエリの埋め込みを生成する。
PRFエンコーダは、学習された注意機構でノイズを無視しながら、PRF文書から関連および補完的な情報を効果的にキャプチャする。
論文 参考訳(メタデータ) (2021-08-30T18:10:26Z) - WSL-DS: Weakly Supervised Learning with Distant Supervision for Query
Focused Multi-Document Abstractive Summarization [16.048329028104643]
Query Focused Multi-Document Summarization (QF-MDS)タスクでは、ドキュメントのセットとクエリが与えられ、そこでこれらのドキュメントから要約を生成する。
このタスクの大きな課題のひとつは、ラベル付きトレーニングデータセットの可用性の欠如である。
本稿では,遠隔指導による弱教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2020-11-03T02:02:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。