論文の概要: MODS: Moderating a Mixture of Document Speakers to Summarize Debatable Queries in Document Collections
- arxiv url: http://arxiv.org/abs/2502.00322v1
- Date: Sat, 01 Feb 2025 05:08:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:01:06.673119
- Title: MODS: Moderating a Mixture of Document Speakers to Summarize Debatable Queries in Document Collections
- Title(参考訳): MODS: ドキュメントコレクションのデバタブルなクエリを要約するために、ドキュメント話者の混合をモデレートする
- Authors: Nishant Balepur, Alexa Siu, Nedim Lipka, Franck Dernoncourt, Tong Sun, Jordan Boyd-Graber, Puneet Mathur,
- Abstract要約: Debatable QFSを紹介します。これは、反対の視点でドキュメントを介してクエリに応答する要約を作成するタスクです。
パネルディスカッションを反映したマルチLLMフレームワークMODSを設計する。
議論の的になっているWebクエリとDebateQFSによる競合QAの実験と、Debatepediaによる新たな議論クエリのデータセットであるDebateQFSでは、トピックパラグラフのカバレッジとバランスにおいて、MODSがSOTAを38~59%上回ったことが示されている。
- 参考スコア(独自算出の注目度): 57.588478932185005
- License:
- Abstract: Query-focused summarization (QFS) gives a summary of documents to answer a query. Past QFS work assumes queries have one answer, ignoring debatable ones (Is law school worth it?). We introduce Debatable QFS (DQFS), a task to create summaries that answer debatable queries via documents with opposing perspectives; summaries must comprehensively cover all sources and balance perspectives, favoring no side. These goals elude LLM QFS systems, which: 1) lack structured content plans, failing to guide LLMs to write balanced summaries, and 2) use the same query to retrieve contexts across documents, failing to cover all perspectives specific to each document's content. To overcome this, we design MODS, a multi-LLM framework mirroring human panel discussions. MODS treats documents as individual Speaker LLMs and has a Moderator LLM that picks speakers to respond to tailored queries for planned topics. Speakers use tailored queries to retrieve relevant contexts from their documents and supply perspectives, which are tracked in a rich outline, yielding a content plan to guide the final summary. Experiments on ConflictingQA with controversial web queries and DebateQFS, our new dataset of debate queries from Debatepedia, show MODS beats SOTA by 38-59% in topic paragraph coverage and balance, based on new citation metrics. Users also find MODS's summaries to be readable and more balanced.
- Abstract(参考訳): クエリ中心の要約(QFS)は、クエリに応答するドキュメントの要約を提供する。
過去のQFS作業では、クエリには1つの答えがあり、議論の余地のないものを無視していると仮定している。
Debatable QFS (DQFS: Debatable QFS) は、文書を通して逆の視点で遅延クエリに応答する要約を作成するタスクであり、要約はすべてのソースを包括的にカバーし、視点のバランスをとる必要がある。
これらのゴールはLLM QFSシステムを取り除きます。
1)構造化コンテンツプランの欠如、LCMがバランスの取れた要約を書くのに役立たなかったこと、
2) 同じクエリを使ってドキュメントをまたいだコンテキストを検索し、各ドキュメントの内容に特有のすべての視点をカバーできない。
そこで我々は,パネルディスカッションを反映したマルチLLMフレームワークMODSを設計した。
MODSは、ドキュメントを個別の話者LLMとして扱い、計画されたトピックの調整されたクエリに対応するためにスピーカーを選択するモデレーターLLMを備えている。
話者は、調整されたクエリを使用して、ドキュメントから関連するコンテキストを検索し、豊富なアウトラインで追跡され、最終要約をガイドするコンテンツプランを生成する。
議論の的になっているWebクエリと、Debatepediaの新たな議論クエリのデータセットであるDebateQFSとの衝突QAの実験では、新しい引用指標に基づいて、MODSがトピックパラグラフのカバレッジとバランスで38~59%のSOTAを上回りました。
MODSの要約も読みやすく、バランスが取れている。
関連論文リスト
- Benchmarking Large Language Models for Conversational Question Answering in Multi-instructional Documents [61.41316121093604]
対話型質問応答(CQA)の文脈における大規模言語モデル(LLM)を評価するための新しいベンチマークであるInsCoQAを提案する。
InsCoQAは、百科事典スタイルの教育内容から派生したもので、複数の文書から手続き的ガイダンスを抽出し、解釈し、正確に要約する能力のモデルを評価する。
また,LLM支援型評価器であるInsEvalを提案する。
論文 参考訳(メタデータ) (2024-10-01T09:10:00Z) - Contri(e)ve: Context + Retrieve for Scholarly Question Answering [0.0]
本稿では,オープンソースのLarge Language Model (LLM): Scholarly-QALDデータセット用のLlama3.1を提案する。
まず、異なる構造化データソースと非構造化データソースから質問に関連するコンテキストを抽出する。
第2に,LLMの情報検索性能を向上させるために,プロンプトエンジニアリングを実装した。
論文 参考訳(メタデータ) (2024-09-13T17:38:47Z) - Integrating SPARQL and LLMs for Question Answering over Scholarly Data Sources [0.0]
本稿では,SPARQLクエリを合成し,アルゴリズムを分割・征服する手法と,事前学習した抽出質問応答モデルについて述べる。
まずSPARQLクエリからデータを収集し、次に分割と分割を適用してさまざまな質問タイプとソースを管理し、モデルを使用して個人的な著者の質問を処理する。
Exact MatchとFスコアのメトリクスで評価されたこの手法は、学術的な文脈におけるQAの精度と効率を改善することを約束している。
論文 参考訳(メタデータ) (2024-09-11T14:50:28Z) - DOCBENCH: A Benchmark for Evaluating LLM-based Document Reading Systems [99.17123445211115]
本稿では,大規模言語モデル(LLM)に基づく文書読解システムを評価するベンチマークであるDocBenchを紹介する。
我々のベンチマークには、人間のアノテーションの募集と、合成質問の生成が含まれる。
実際の文書は229件、質問は1,102件で、5つのドメインにまたがって4種類の質問がある。
論文 参考訳(メタデータ) (2024-07-15T13:17:42Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - LibriSQA: A Novel Dataset and Framework for Spoken Question Answering with Large Language Models [21.95962189710859]
本稿では,LibriSQAデータセット上でSpoken Question Answering(SQA)タスクを実行するための軽量なエンドツーエンドフレームワークを提案する。
ASRをSQAフォーマットに書き換えることで、ASRタスクの処理におけるフレームワークの機能をさらに裏付ける。
我々の経験的発見は、多モーダル情報の整合と解釈に対するLLMの適性を高め、ユニバーサル多モーダルLLMの開発への道を開いた。
論文 参考訳(メタデータ) (2023-08-20T23:47:23Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - LMGQS: A Large-scale Dataset for Query-focused Summarization [77.6179359525065]
我々は4つの一般的な要約ベンチマークを新しいQFSベンチマークデータセットであるLMGQSに変換する。
我々は最先端の要約モデルを用いてベースラインを確立する。
複数の既存のQFSベンチマークにおいて、最先端のゼロショットと教師付きパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-22T14:53:45Z) - AnswerQuest: A System for Generating Question-Answer Items from
Multi-Paragraph Documents [1.0896567381206712]
本稿では,質問応答タスク(QA)と質問生成タスク(QG)を統合し,複数のパラグラフ文書の内容を伝えるQ&A項目を生成するシステムについてデモする。
両タスクの改善をもたらすQAとQGに関するいくつかの実験を報告し、テキストのQ&A項目のリストを作成するための相互作用を評価します。
論文 参考訳(メタデータ) (2021-03-05T17:36:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。