論文の概要: What are they talking about? Benchmarking Large Language Models for Knowledge-Grounded Discussion Summarization
- arxiv url: http://arxiv.org/abs/2505.12474v1
- Date: Sun, 18 May 2025 15:52:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.256512
- Title: What are they talking about? Benchmarking Large Language Models for Knowledge-Grounded Discussion Summarization
- Title(参考訳): 彼らは何を言っているのか?知識を包括した議論の要約のための大規模言語モデルのベンチマーク
- Authors: Weixiao Zhou, Junnan Zhu, Gengyao Li, Xianfu Cheng, Xinnian Liang, Feifei Zhai, Zhoujun Li,
- Abstract要約: 本研究の目的は,既存の対話要約システムにおける外部オブザーバの混乱の限界に対処することである。
タスク出力を背景と意見の要約としてモデル化し、2つの標準化された要約パターンを定義する。
我々は,構造化プロンプトおよび自己回帰パラダイムの下で12個のLDMを評価した。
- 参考スコア(独自算出の注目度): 19.616500850017363
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we investigate the performance of LLMs on a new task that requires combining discussion with background knowledge for summarization. This aims to address the limitation of outside observer confusion in existing dialogue summarization systems due to their reliance solely on discussion information. To achieve this, we model the task output as background and opinion summaries and define two standardized summarization patterns. To support assessment, we introduce the first benchmark comprising high-quality samples consistently annotated by human experts and propose a novel hierarchical evaluation framework with fine-grained, interpretable metrics. We evaluate 12 LLMs under structured-prompt and self-reflection paradigms. Our findings reveal: (1) LLMs struggle with background summary retrieval, generation, and opinion summary integration. (2) Even top LLMs achieve less than 69% average performance across both patterns. (3) Current LLMs lack adequate self-evaluation and self-correction capabilities for this task.
- Abstract(参考訳): 本研究は,要約のための背景知識と議論を組み合わさる新しいタスクにおけるLLMの性能について検討する。
本研究の目的は,既存の対話要約システムにおける外部オブザーバの混乱の限界に対処することである。
これを実現するために、タスク出力を背景と意見の要約としてモデル化し、2つの標準化された要約パターンを定義する。
評価を支援するために,人間の専門家が一貫して注釈付けした高品質なサンプルからなる最初のベンチマークを導入し,細粒度で解釈可能な指標を持つ新しい階層的評価フレームワークを提案する。
我々は,構造化プロンプトおよび自己回帰パラダイムの下で12個のLDMを評価した。
1) LLMは背景要約検索, 生成, 意見要約統合に苦慮している。
2) 上位 LLM でさえ,両パターンの平均性能は 69% 以下であった。
(3)現在のLCMでは,この課題に対して十分な自己評価と自己補正能力が欠如している。
関連論文リスト
- LLM-as-an-Interviewer: Beyond Static Testing Through Dynamic LLM Evaluation [24.103034843158717]
LLM-as-an-Interviewerは,大規模言語モデル(LLM)を評価するための新しいパラダイムである。
このアプローチはマルチターンインタラクションを活用し、インタビュアーは応答に対するフィードバックを積極的に提供し、評価されたLCMにフォローアップ質問を提示する。
このフレームワークを用いてMATHとDepthQAタスクの6つのモデルを評価する。
論文 参考訳(メタデータ) (2024-12-10T15:00:32Z) - Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。
本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文 参考訳(メタデータ) (2023-11-15T18:25:26Z) - Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。
我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。
本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T17:49:44Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。