論文の概要: Document Valuation in LLM Summaries: A Cluster Shapley Approach
- arxiv url: http://arxiv.org/abs/2505.23842v1
- Date: Wed, 28 May 2025 15:14:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.559865
- Title: Document Valuation in LLM Summaries: A Cluster Shapley Approach
- Title(参考訳): LLM要約における文書評価:クラスタシェープ手法
- Authors: Zikun Ye, Hema Yoganarasimhan,
- Abstract要約: 大規模言語モデル(LLM)は、複数のソースからコンテンツを検索して要約するシステムにおいて、ますます使われている。
本稿では,各文書の余剰貢献に基づいてクレジットを割り当てるゲーム理論のShapley値を提案する。
そこで我々は,文書間の意味的類似性を利用した効率的な近似アルゴリズムであるCluster Shapleyを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are increasingly used in systems that retrieve and summarize content from multiple sources, such as search engines and AI assistants. While these models enhance user experience by generating coherent summaries, they obscure the contributions of original content creators, raising concerns about credit attribution and compensation. We address the challenge of valuing individual documents used in LLM-generated summaries. We propose using Shapley values, a game-theoretic method that allocates credit based on each document's marginal contribution. Although theoretically appealing, Shapley values are expensive to compute at scale. We therefore propose Cluster Shapley, an efficient approximation algorithm that leverages semantic similarity between documents. By clustering documents using LLM-based embeddings and computing Shapley values at the cluster level, our method significantly reduces computation while maintaining attribution quality. We demonstrate our approach to a summarization task using Amazon product reviews. Cluster Shapley significantly reduces computational complexity while maintaining high accuracy, outperforming baseline methods such as Monte Carlo sampling and Kernel SHAP with a better efficient frontier. Our approach is agnostic to the exact LLM used, the summarization process used, and the evaluation procedure, which makes it broadly applicable to a variety of summarization settings.
- Abstract(参考訳): 大規模言語モデル(LLM)は、検索エンジンやAIアシスタントなど、複数のソースからコンテンツを検索して要約するシステムにおいて、ますます使われている。
これらのモデルは、一貫性のある要約を生成することによってユーザーエクスペリエンスを向上させるが、オリジナルコンテンツクリエーターの貢献を曖昧にし、クレジットの帰属や報酬に関する懸念を提起する。
LLM生成サマリーで使用される個々の文書を評価するという課題に対処する。
本稿では,各文書の余剰貢献に基づいてクレジットを割り当てるゲーム理論のShapley値を提案する。
理論上は魅力的だが、Shapleyの値は大規模に計算するのに高価である。
そこで我々は,文書間の意味的類似性を利用した効率的な近似アルゴリズムであるCluster Shapleyを提案する。
LLMベースの埋め込みを用いた文書のクラスタ化とクラスタレベルでのShapley値の計算により,本手法は属性品質を維持しながら計算を著しく削減する。
Amazon製品レビューを用いた要約タスクへのアプローチを実演する。
Cluster Shapleyは、モンテカルロサンプリングやケルネルSHAPといったベースライン手法よりも効率の良いフロンティアで、高い精度を維持しながら計算複雑性を著しく低減する。
提案手法は, 使用するLCM, 使用する要約プロセス, 評価手順に依存しないため, 様々な要約設定に広く適用できる。
関連論文リスト
- k-LLMmeans: Scalable, Stable, and Interpretable Text Clustering via LLM-based Centroids [0.0]
k-LLMmeansはテキストクラスタリングのためのk-meansアルゴリズムの新しい修正である。
k-LLMmeansはk-meansや他の伝統的なベースラインよりも一貫して優れていることを示す。
そこで本研究では,StackExchangeをベースとして,テキストストリームクラスタリング手法の評価を行うベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2025-02-12T19:50:22Z) - Self-Calibrated Listwise Reranking with Large Language Models [137.6557607279876]
大規模言語モデル (LLM) はシーケンシャル・ツー・シーケンス・アプローチによってタスクのランク付けに使用されている。
この階調のパラダイムは、より大きな候補集合を反復的に扱うためにスライディングウインドウ戦略を必要とする。
そこで本稿では,LLMを用いた自己校正リストのランク付け手法を提案する。
論文 参考訳(メタデータ) (2024-11-07T10:31:31Z) - FineSurE: Fine-grained Summarization Evaluation using LLMs [22.62504593575933]
FineSurEは,大規模言語モデル(LLM)を用いた要約タスクに適した,きめ細かい評価器である。
また、忠実さに加えて完全性と簡潔さの基準を採用し、多次元評価を可能にしている。
論文 参考訳(メタデータ) (2024-07-01T02:20:28Z) - BooookScore: A systematic exploration of book-length summarization in the era of LLMs [53.42917858142565]
我々は,識別されたエラータイプを一切含まない要約文の割合を計測する自動測度BooookScoreを開発した。
GPT-4 や 2 のようなクローズドソース LLM は,オープンソースモデルよりも BooookScore の高いサマリーを生成することがわかった。
論文 参考訳(メタデータ) (2023-10-01T20:46:44Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z) - Element-aware Summarization with Large Language Models: Expert-aligned
Evaluation and Chain-of-Thought Method [35.181659789684545]
自動要約は、ソースドキュメントのキーアイデアを含む簡潔な要約を生成する。
CNN/DailyMailやBBC XSumからの引用は、主に幻覚と情報冗長性の点で騒々しい。
本稿では,LCMを段階的に生成するためにSumCoT(Slide Chain-of-Thought)手法を提案する。
実験結果から, ROUGE-L では, 最先端の微調整 PLM とゼロショット LLM を+4.33/+4.77 で上回った。
論文 参考訳(メタデータ) (2023-05-22T18:54:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。