論文の概要: LIDS: LLM Summary Inference Under the Layered Lens
- arxiv url: http://arxiv.org/abs/2603.00105v1
- Date: Wed, 18 Feb 2026 07:39:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.056115
- Title: LIDS: LLM Summary Inference Under the Layered Lens
- Title(参考訳): LIDS:層状レンズ下でのLCM概要推論
- Authors: Dylan Park, Yingying Fan, Jinchi Lv,
- Abstract要約: ChatGPTは、プロンプトに基づいて要約を生成する。
要約の質を評価するのは 言語が複雑だから難しい
BERT-SVD-based direction metric と SOFARI (LIDS) を用いた新しいLCM要約推定法を提案する。
LIDSは、要約と原文の類似度を測定するために、遅延SVDベースの方向測度を使用する。
- 参考スコア(独自算出の注目度): 3.55997016196929
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have gained significant attention by many researchers and practitioners in natural language processing (NLP) since the introduction of ChatGPT in 2022. One notable feature of ChatGPT is its ability to generate summaries based on prompts. Yet evaluating the quality of these summaries remains challenging due to the complexity of language. To this end, in this paper we suggest a new method of LLM summary inference with BERT-SVD-based direction metric and SOFARI (LIDS) that assesses the summary accuracy equipped with interpretable key words for layered themes. The LIDS uses a latent SVD-based direction metric to measure the similarity between the summaries and original text, leveraging the BERT embeddings and repeated prompts to quantify the statistical uncertainty. As a result, LIDS gives a natural embedding of each summary for large text reduction. We further exploit SOFARI to uncover important key words associated with each latent theme in the summary with controlled false discovery rate (FDR). Comprehensive empirical studies demonstrate the practical utility and robustness of LIDS through human verification and comparisons to other similarity metrics, including a comparison of different LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は2022年のChatGPTの導入以来、自然言語処理(NLP)の多くの研究者や実践者によって注目されている。
ChatGPTの特長の1つは、プロンプトに基づいて要約を生成する機能である。
しかし、これらの要約の品質を評価することは、言語の複雑さのために難しいままである。
そこで本研究では,BERT-SVDに基づく方向測度とSOFARI(LIDS)を用いたLLM要約推定手法を提案する。
LIDSは遅延SVDに基づく方向測度を用いて要約と原文の類似度を測定し、BERT埋め込みと繰り返しプロンプトを利用して統計的不確実性を定量化する。
その結果、LIDSは大きなテキスト削減のために各要約を自然に埋め込みます。
さらに、SOFARIを利用して、制御された偽発見率(FDR)の要約において、各潜在テーマに関連する重要なキーワードを明らかにする。
総合的な実証研究は、人間の検証と他の類似度指標との比較を通じて、LIDSの実用性と堅牢性を実証している。
関連論文リスト
- Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキストへの微調整テキスト埋め込みモデルにより,優れた分類精度が得られることがわかった。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - Scaling Up Summarization: Leveraging Large Language Models for Long Text Extractive Summarization [0.27624021966289597]
本稿では,Large Language Models (LLM) を利用した抽出要約フレームワークであるEYEGLAXSを紹介する。
EYEGLAXSは、事実的および文法的整合性を保証するために抽出的な要約に焦点を当てている。
このシステムはPubMedやArXivといった有名なデータセットに新しいパフォーマンスベンチマークを設定する。
論文 参考訳(メタデータ) (2024-08-28T13:52:19Z) - FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction [85.26780391682894]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。
FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。
我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文 参考訳(メタデータ) (2024-03-04T17:57:18Z) - Benchmarking LLMs on the Semantic Overlap Summarization Task [7.944123371140184]
本稿では,セマンティック・オーバーラップ・サマライゼーション(SOS)タスクのみを対象に,人気のあるLarge Language Models (LLM) のベンチマーク研究を行う。
このデータセットは、プライバシポリシのドキュメントから得られた135の高品質なSOSデータサンプルを提供する。
次に、TELeRと呼ばれる標準の分類法を用いて、2つのSOSデータセット上で905,216個のLCM生成サマリーを作成し、評価する。
論文 参考訳(メタデータ) (2024-02-26T20:33:50Z) - Improving Factual Consistency of News Summarization by Contrastive Preference Optimization [65.11227166319546]
大規模言語モデル(LLM)は、本来の記事と現実的に矛盾する要約を生成する。
これらの幻覚は、従来の方法による検出が困難である。
本稿では,LLMの適合性を解消し,忠実で偽のコンテンツを生成するコントラスト優先最適化(CPO)を提案する。
論文 参考訳(メタデータ) (2023-10-30T08:40:16Z) - Semantic Consistency for Assuring Reliability of Large Language Models [9.040736633675136]
大規模言語モデル(LLM)は、様々な自然言語タスクに対して顕著な流布と能力を示す。
セマンティック一貫性の一般的な尺度を導入し、様々なLLMの性能を評価するために、この指標の複数バージョンを定式化する。
本稿では,Ask-to-Choose (A2C) と呼ばれる新しいプロンプト戦略を提案する。
論文 参考訳(メタデータ) (2023-08-17T18:11:33Z) - Evaluating Factual Consistency of Summaries with Large Language Models [24.416837319515896]
大規模言語モデル(LLM)の直接的推進による要約の事実整合性の評価について検討する。
実験により, LLM のプロンプトは, 全ての設定において, 過去の最良事実性システムより優れていることが示された。
論文 参考訳(メタデータ) (2023-05-23T13:48:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。