論文の概要: Document Valuation in LLM Summaries: A Cluster Shapley Approach
- arxiv url: http://arxiv.org/abs/2505.23842v2
- Date: Sun, 10 Aug 2025 06:04:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 16:55:52.873246
- Title: Document Valuation in LLM Summaries: A Cluster Shapley Approach
- Title(参考訳): LLM要約における文書評価:クラスタシェープ手法
- Authors: Zikun Ye, Hema Yoganarasimhan,
- Abstract要約: 大規模言語モデル(LLM)は、複数のソースからコンテンツを検索して要約するシステムにおいて、ますます使われている。
本稿では,各文書の余剰貢献に基づいてクレジットを割り当てるゲーム理論のShapley値を提案する。
そこで我々は,文書間の意味的類似性を利用した効率的な近似アルゴリズムであるCluster Shapleyを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are increasingly used in systems that retrieve and summarize content from multiple sources, such as search engines and AI assistants. While these models enhance user experience by generating coherent summaries, they obscure the contributions of original content creators, raising concerns about credit attribution and compensation. We address the challenge of valuing individual documents used in LLM-generated summaries. We propose using Shapley values, a game-theoretic method that allocates credit based on each document's marginal contribution. Although theoretically appealing, Shapley values are expensive to compute at scale. We therefore propose Cluster Shapley, an efficient approximation algorithm that leverages semantic similarity between documents. By clustering documents using LLM-based embeddings and computing Shapley values at the cluster level, our method significantly reduces computation while maintaining attribution quality. We demonstrate our approach to a summarization task using Amazon product reviews. Cluster Shapley significantly reduces computational complexity while maintaining high accuracy, outperforming baseline methods such as Monte Carlo sampling and Kernel SHAP with a better efficient frontier. Our approach is agnostic to the exact LLM used, the summarization process used, and the evaluation procedure, which makes it broadly applicable to a variety of summarization settings.
- Abstract(参考訳): 大規模言語モデル(LLM)は、検索エンジンやAIアシスタントなど、複数のソースからコンテンツを検索して要約するシステムにおいて、ますます使われている。
これらのモデルは、一貫性のある要約を生成することによってユーザーエクスペリエンスを向上させるが、オリジナルコンテンツクリエーターの貢献を曖昧にし、クレジットの帰属や報酬に関する懸念を提起する。
LLM生成サマリーで使用される個々の文書を評価するという課題に対処する。
本稿では,各文書の余剰貢献に基づいてクレジットを割り当てるゲーム理論のShapley値を提案する。
理論上は魅力的だが、Shapleyの値は大規模に計算するのに高価である。
そこで我々は,文書間の意味的類似性を利用した効率的な近似アルゴリズムであるCluster Shapleyを提案する。
LLMベースの埋め込みを用いた文書のクラスタ化とクラスタレベルでのShapley値の計算により,本手法は属性品質を維持しながら計算を著しく削減する。
Amazon製品レビューを用いた要約タスクへのアプローチを実演する。
Cluster Shapleyは、モンテカルロサンプリングやケルネルSHAPといったベースライン手法よりも効率の良いフロンティアで、高い精度を維持しながら計算複雑性を著しく低減する。
提案手法は, 使用するLCM, 使用する要約プロセス, 評価手順に依存しないため, 様々な要約設定に広く適用できる。
関連論文リスト
- An Enhanced Model-based Approach for Short Text Clustering [58.60681789677676]
Twitter、Google+、Facebookなどのソーシャルメディアの人気が高まり、短いテキストのクラスタリングがますます重要になっている。
既存の手法は、トピックモデルに基づくアプローチと深層表現学習に基づくアプローチの2つのパラダイムに大別することができる。
短文の空間性と高次元性を効果的に扱えるDirichlet Multinomial Mixture Model (GSDMM) のギブスサンプリングアルゴリズムを提案する。
さらなる改良を保証しているGSDMMのいくつかの側面に基づいて,さらなる性能向上を目的とした改良されたアプローチであるGSDMM+を提案する。
論文 参考訳(メタデータ) (2025-07-18T10:07:42Z) - FuDoBa: Fusing Document and Knowledge Graph-based Representations with Bayesian Optimisation [43.56253799373878]
本稿では,LLMに基づく埋め込みとドメイン固有の構造化知識を統合したベイズ最適化に基づくFuDoBaを紹介する。
この融合は、訓練の複雑さを減らし、解釈可能な早期融合重みを生み出すとともに、低次元のタスク関連表現を生成する。
2つの領域における6つのデータセットに対するアプローチの有効性を実証し、提案した表現学習アプローチが、プロプライエタリなLCMベースの埋め込みベースラインでのみ生成されるものと同程度に、あるいは超えていることを示す。
論文 参考訳(メタデータ) (2025-07-09T07:49:55Z) - Context Attribution with Multi-Armed Bandit Optimization [11.715006981206844]
本稿では,コンテキスト属性をCMAB(Multi-armed bandit)問題として定式化する新しいフレームワークを提案する。
我々は、限られたクエリ予算の下で、指数的に大きなコンテキストサブセットの空間を効率的に探索するために、 Combinatorial Thompson Sampling (CTS) を採用している。
本手法は,正規化トークンの確率に基づいて報酬関数を定義し,セグメントのサブセットが元のモデル応答をどれだけうまくサポートしているかを抽出する。
論文 参考訳(メタデータ) (2025-06-24T19:47:27Z) - k-LLMmeans: Scalable, Stable, and Interpretable Text Clustering via LLM-based Centroids [0.0]
k-LLMmeansはテキストクラスタリングのためのk-meansアルゴリズムの新しい修正である。
k-LLMmeansはk-meansや他の伝統的なベースラインよりも一貫して優れていることを示す。
そこで本研究では,StackExchangeをベースとして,テキストストリームクラスタリング手法の評価を行うベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2025-02-12T19:50:22Z) - Self-Calibrated Listwise Reranking with Large Language Models [137.6557607279876]
大規模言語モデル (LLM) はシーケンシャル・ツー・シーケンス・アプローチによってタスクのランク付けに使用されている。
この階調のパラダイムは、より大きな候補集合を反復的に扱うためにスライディングウインドウ戦略を必要とする。
そこで本稿では,LLMを用いた自己校正リストのランク付け手法を提案する。
論文 参考訳(メタデータ) (2024-11-07T10:31:31Z) - FineSurE: Fine-grained Summarization Evaluation using LLMs [22.62504593575933]
FineSurEは,大規模言語モデル(LLM)を用いた要約タスクに適した,きめ細かい評価器である。
また、忠実さに加えて完全性と簡潔さの基準を採用し、多次元評価を可能にしている。
論文 参考訳(メタデータ) (2024-07-01T02:20:28Z) - Hierarchical Indexing for Retrieval-Augmented Opinion Summarization [60.5923941324953]
本稿では,抽出アプローチの帰属性と拡張性と,大規模言語モデル(LLM)の一貫性と拡散性を組み合わせた,教師なし抽象的意見要約手法を提案する。
我々の方法であるHIROは、意味的に整理された離散的な階層を通して文を経路にマッピングするインデックス構造を学習する。
推測時にインデックスを投入し、入力レビューから人気意見を含む文群を識別し、検索する。
論文 参考訳(メタデータ) (2024-03-01T10:38:07Z) - Routing to the Expert: Efficient Reward-guided Ensemble of Large
Language Models [69.51130760097818]
本研究では,報奨誘導型ルーティング手法であるZooterを提案する。
さまざまなドメインやタスクについて26のサブセットを持つ総合的なベンチマークコレクション上でZooterを評価する。
論文 参考訳(メタデータ) (2023-11-15T04:40:43Z) - BooookScore: A systematic exploration of book-length summarization in the era of LLMs [53.42917858142565]
我々は,識別されたエラータイプを一切含まない要約文の割合を計測する自動測度BooookScoreを開発した。
GPT-4 や 2 のようなクローズドソース LLM は,オープンソースモデルよりも BooookScore の高いサマリーを生成することがわかった。
論文 参考訳(メタデータ) (2023-10-01T20:46:44Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z) - Element-aware Summarization with Large Language Models: Expert-aligned
Evaluation and Chain-of-Thought Method [35.181659789684545]
自動要約は、ソースドキュメントのキーアイデアを含む簡潔な要約を生成する。
CNN/DailyMailやBBC XSumからの引用は、主に幻覚と情報冗長性の点で騒々しい。
本稿では,LCMを段階的に生成するためにSumCoT(Slide Chain-of-Thought)手法を提案する。
実験結果から, ROUGE-L では, 最先端の微調整 PLM とゼロショット LLM を+4.33/+4.77 で上回った。
論文 参考訳(メタデータ) (2023-05-22T18:54:35Z) - Late Fusion Multi-view Clustering via Global and Local Alignment
Maximization [61.89218392703043]
マルチビュークラスタリング(MVC)は、異なるビューからの補完情報を最適に統合し、クラスタリング性能を改善する。
既存のアプローチの多くは、クラスタリングに最適な類似性行列を学ぶために、複数の事前定義された類似性を直接融合する。
これらの問題に対処するために、アライメントを通してレイトフュージョンMVCを提案する。
論文 参考訳(メタデータ) (2022-08-02T01:49:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。