論文の概要: What are they talking about? Benchmarking Large Language Models for Knowledge-Grounded Discussion Summarization
- arxiv url: http://arxiv.org/abs/2505.12474v1
- Date: Sun, 18 May 2025 15:52:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.256512
- Title: What are they talking about? Benchmarking Large Language Models for Knowledge-Grounded Discussion Summarization
- Title(参考訳): 彼らは何を言っているのか?知識を包括した議論の要約のための大規模言語モデルのベンチマーク
- Authors: Weixiao Zhou, Junnan Zhu, Gengyao Li, Xianfu Cheng, Xinnian Liang, Feifei Zhai, Zhoujun Li,
- Abstract要約: 本研究の目的は,既存の対話要約システムにおける外部オブザーバの混乱の限界に対処することである。
タスク出力を背景と意見の要約としてモデル化し、2つの標準化された要約パターンを定義する。
我々は,構造化プロンプトおよび自己回帰パラダイムの下で12個のLDMを評価した。
- 参考スコア(独自算出の注目度): 19.616500850017363
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we investigate the performance of LLMs on a new task that requires combining discussion with background knowledge for summarization. This aims to address the limitation of outside observer confusion in existing dialogue summarization systems due to their reliance solely on discussion information. To achieve this, we model the task output as background and opinion summaries and define two standardized summarization patterns. To support assessment, we introduce the first benchmark comprising high-quality samples consistently annotated by human experts and propose a novel hierarchical evaluation framework with fine-grained, interpretable metrics. We evaluate 12 LLMs under structured-prompt and self-reflection paradigms. Our findings reveal: (1) LLMs struggle with background summary retrieval, generation, and opinion summary integration. (2) Even top LLMs achieve less than 69% average performance across both patterns. (3) Current LLMs lack adequate self-evaluation and self-correction capabilities for this task.
- Abstract(参考訳): 本研究は,要約のための背景知識と議論を組み合わさる新しいタスクにおけるLLMの性能について検討する。
本研究の目的は,既存の対話要約システムにおける外部オブザーバの混乱の限界に対処することである。
これを実現するために、タスク出力を背景と意見の要約としてモデル化し、2つの標準化された要約パターンを定義する。
評価を支援するために,人間の専門家が一貫して注釈付けした高品質なサンプルからなる最初のベンチマークを導入し,細粒度で解釈可能な指標を持つ新しい階層的評価フレームワークを提案する。
我々は,構造化プロンプトおよび自己回帰パラダイムの下で12個のLDMを評価した。
1) LLMは背景要約検索, 生成, 意見要約統合に苦慮している。
2) 上位 LLM でさえ,両パターンの平均性能は 69% 以下であった。
(3)現在のLCMでは,この課題に対して十分な自己評価と自己補正能力が欠如している。
関連論文リスト
- Improving Multilingual Retrieval-Augmented Language Models through Dialectic Reasoning Argumentations [65.11348389219887]
そこで,Dialectic-RAG(Dialectic-RAG, DRAG)を提案する。
我々は、文脈内学習戦略と、より小さなモデルをインストラクションするための実演の構築の両方において、我々のフレームワークが与える影響を示す。
論文 参考訳(メタデータ) (2025-04-07T06:55:15Z) - Contextualizing Search Queries In-Context Learning for Conversational Rewriting with LLMs [0.0]
本稿では,数発の対話型クエリ書き換えのための新しいアプローチであるPrompt-Guided In-Context Learningを紹介する。
提案手法では,タスク記述,入出力形式仕様,図示的な例を取り入れ,慎重に設計したプロンプトを用いている。
ベンチマークデータセットであるTRECとTaskmaster-1の実験は、我々のアプローチが強いベースラインを大幅に上回ることを示した。
論文 参考訳(メタデータ) (2025-02-20T20:02:42Z) - LLM-as-an-Interviewer: Beyond Static Testing Through Dynamic LLM Evaluation [24.103034843158717]
LLM-as-an-Interviewerは,大規模言語モデル(LLM)を評価するための新しいパラダイムである。
このアプローチはマルチターンインタラクションを活用し、インタビュアーは応答に対するフィードバックを積極的に提供し、評価されたLCMにフォローアップ質問を提示する。
このフレームワークを用いてMATHとDepthQAタスクの6つのモデルを評価する。
論文 参考訳(メタデータ) (2024-12-10T15:00:32Z) - Increasing faithfulness in human-human dialog summarization with Spoken Language Understanding tasks [0.0]
本稿では,タスク関連情報を組み込むことによって,要約処理の促進を図ることを提案する。
その結果,タスク関連情報とモデルを統合することで,単語の誤り率が異なる場合でも要約精度が向上することがわかった。
論文 参考訳(メタデータ) (2024-09-16T08:15:35Z) - CADS: A Systematic Literature Review on the Challenges of Abstractive Dialogue Summarization [7.234196390284036]
本稿では、英語対話におけるトランスフォーマーに基づく抽象要約に関する研究を要約する。
ダイアログ要約における主な課題(言語、構造、理解、話者、サリエンス、事実)をカバーします。
言語などいくつかの課題がかなりの進歩を遂げているのに対して、理解、事実性、サリエンスといった課題は依然として困難であり、重要な研究機会を持っている。
論文 参考訳(メタデータ) (2024-06-11T17:30:22Z) - FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction [85.26780391682894]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。
FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。
我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文 参考訳(メタデータ) (2024-03-04T17:57:18Z) - Investigating Consistency in Query-Based Meeting Summarization: A
Comparative Study of Different Embedding Methods [0.0]
テキスト要約は自然言語処理(NLP)分野における有名な応用の1つである。
与えられたコンテキストに基づいて重要な情報による要約を自動的に生成することを目的としている。
本稿では,Microsoft が提案した "QMSum: A New Benchmark for Query-based Multi-domain Meeting Summarization" に着想を得た。
また,提案するLocaterモデルを用いて,与えられたテキストとクエリに基づいて関連するスパンを抽出し,それをSummarizerモデルで要約する。
論文 参考訳(メタデータ) (2024-02-10T08:25:30Z) - Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。
本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文 参考訳(メタデータ) (2023-11-15T18:25:26Z) - Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。
我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。
本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T17:49:44Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z) - Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual
Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。
本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文 参考訳(メタデータ) (2023-05-12T00:13:17Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z) - SWING: Balancing Coverage and Faithfulness for Dialogue Summarization [67.76393867114923]
本稿では,自然言語推論(NLI)モデルを用いて,事実の不整合を回避し,カバレッジを向上させることを提案する。
我々は、NLIを用いて詳細なトレーニング信号を計算し、モデルがカバーされていない参照サマリーのコンテンツを生成することを奨励する。
DialogSumおよびSAMSumデータセットの実験により,提案手法の有効性が確認された。
論文 参考訳(メタデータ) (2023-01-25T09:33:11Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - Reference Knowledgeable Network for Machine Reading Comprehension [43.352833140317486]
マルチチョイスマシン読み取り(MRC)は、MRCタスクの重要かつ挑戦的な形式です。
参照知識ネットワーク(RekNet)と呼ばれるスパン抽出に基づく参照型知識強化モデルを提案する。
詳細では、RekNetは詳細なクリティカル情報を洗練し、Reference Spanと定義し、Reference Spanの共起情報と回答オプションによって外部知識の4倍を引用する。
論文 参考訳(メタデータ) (2020-12-07T14:11:33Z) - Multi-Stage Conversational Passage Retrieval: An Approach to Fusing Term
Importance Estimation and Neural Query Rewriting [56.268862325167575]
マルチステージアドホックIRシステムにクエリ再構成を組み込んだ会話経路検索(ConvPR)に取り組む。
本稿では,1項の重要度推定と2項のニューラルクエリ書き換えという2つの手法を提案する。
前者に対しては、周波数に基づく信号を用いて会話コンテキストから抽出した重要な用語を用いて会話クエリを拡張する。
後者では,会話クエリを,事前訓練されたシーケンス列列列モデルを用いて,自然な,スタンドアロンの,人間の理解可能なクエリに再構成する。
論文 参考訳(メタデータ) (2020-05-05T14:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。