論文の概要: What Are They Talking About? A Benchmark of Knowledge-Grounded Discussion Summarization
- arxiv url: http://arxiv.org/abs/2505.12474v2
- Date: Wed, 30 Jul 2025 13:18:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 14:05:51.069244
- Title: What Are They Talking About? A Benchmark of Knowledge-Grounded Discussion Summarization
- Title(参考訳): 彼らは何について話しているのか?知識を包括した議論の要約のベンチマーク
- Authors: Weixiao Zhou, Junnan Zhu, Gengyao Li, Xianfu Cheng, Xinnian Liang, Feifei Zhai, Zhoujun Li,
- Abstract要約: 本稿では、文脈の補足的背景を要約する新しいタスクであるKGDS(Knowledge-Grounded Discussion Summarization)を紹介する。
また、細粒度かつ解釈可能なメトリクスを持つ新しい階層的評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 19.616500850017363
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional dialogue summarization primarily focuses on dialogue content, assuming it comprises adequate information for a clear summary. However, this assumption often fails for discussions grounded in shared background, where participants frequently omit context and use implicit references. This results in summaries that are confusing to readers unfamiliar with the background. To address this, we introduce Knowledge-Grounded Discussion Summarization (KGDS), a novel task that produces a supplementary background summary for context and a clear opinion summary with clarified references. To facilitate research, we construct the first KGDS benchmark, featuring news-discussion pairs and expert-created multi-granularity gold annotations for evaluating sub-summaries. We also propose a novel hierarchical evaluation framework with fine-grained and interpretable metrics. Our extensive evaluation of 12 advanced large language models (LLMs) reveals that KGDS remains a significant challenge. The models frequently miss key facts and retain irrelevant ones in background summarization, and often fail to resolve implicit references in opinion summary integration.
- Abstract(参考訳): 従来の対話要約は主に、明確な要約のための適切な情報を含むと仮定して、対話の内容に焦点を当てている。
しかしながら、この仮定は、参加者がしばしばコンテキストを省略し、暗黙の参照を使用する、共有バックグラウンドに基づく議論で失敗することが多い。
その結果、背景に不慣れな読者に紛らわしい要約が生まれる。
そこで,本稿では,コンテキストの補足的背景要約と,明確化された参照を伴う明確な意見要約を生成する新しいタスクであるKGDS(Knowledge-Grounded Discussion Summarization)を紹介する。
調査を容易にするため,我々は,ニュース・ディスカッション・ペアと専門家が作成したサブサマリー評価用マルチグラニュラリティゴールドアノテーションを特徴とする最初のKGDSベンチマークを構築した。
また、細粒度かつ解釈可能なメトリクスを持つ新しい階層的評価フレームワークを提案する。
12種類の先進的な大規模言語モデル(LLM)を広範囲に評価した結果,KGDSは依然として重要な課題であることがわかった。
モデルは重要な事実を見逃し、背景の要約において無関係な事実を保持し、意見要約統合において暗黙の参照を解決できないことが多い。
関連論文リスト
- LLM-as-an-Interviewer: Beyond Static Testing Through Dynamic LLM Evaluation [24.103034843158717]
LLM-as-an-Interviewerは,大規模言語モデル(LLM)を評価するための新しいパラダイムである。
このアプローチはマルチターンインタラクションを活用し、インタビュアーは応答に対するフィードバックを積極的に提供し、評価されたLCMにフォローアップ質問を提示する。
このフレームワークを用いてMATHとDepthQAタスクの6つのモデルを評価する。
論文 参考訳(メタデータ) (2024-12-10T15:00:32Z) - Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。
本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文 参考訳(メタデータ) (2023-11-15T18:25:26Z) - Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。
我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。
本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T17:49:44Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。