論文の概要: "This Suits You the Best": Query Focused Comparative Explainable Summarization
- arxiv url: http://arxiv.org/abs/2507.04733v1
- Date: Mon, 07 Jul 2025 07:58:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.317476
- Title: "This Suits You the Best": Query Focused Comparative Explainable Summarization
- Title(参考訳): The This Suits You the Best: Query Focused Comparison Explainable Summarization
- Authors: Arnav Attri, Anuj Attri, Pushpak Bhattacharyya, Suman Banerjee, Amey Patil, Muthusamy Chelliah, Nikesh Garera,
- Abstract要約: M-OS(Multi-Source Opinion Summarization)を用いたQF-CES(Query-Focused Comparison Explainable Summaries)の作成手法を提案する。
MS-Q2Pはメタデータを持つ22,500の推奨製品にマッピングされた7,500のクエリで構成されている。
当社のアプローチはパーソナライズ、プライバシ保護、レコメンデーションエンジン非依存、カテゴリ非依存です。
- 参考スコア(独自算出の注目度): 34.25698222058424
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Product recommendations inherently involve comparisons, yet traditional opinion summarization often fails to provide holistic comparative insights. We propose the novel task of generating Query-Focused Comparative Explainable Summaries (QF-CES) using Multi-Source Opinion Summarization (M-OS). To address the lack of query-focused recommendation datasets, we introduce MS-Q2P, comprising 7,500 queries mapped to 22,500 recommended products with metadata. We leverage Large Language Models (LLMs) to generate tabular comparative summaries with query-specific explanations. Our approach is personalized, privacy-preserving, recommendation engine-agnostic, and category-agnostic. M-OS as an intermediate step reduces inference latency approximately by 40% compared to the direct input approach (DIA), which processes raw data directly. We evaluate open-source and proprietary LLMs for generating and assessing QF-CES. Extensive evaluations using QF-CES-PROMPT across 5 dimensions (clarity, faithfulness, informativeness, format adherence, and query relevance) showed an average Spearman correlation of 0.74 with human judgments, indicating its potential for QF-CES evaluation.
- Abstract(参考訳): プロダクトレコメンデーションは本質的に比較を伴いますが、従来の意見要約は総体的な比較洞察を提供するのに失敗することが多いのです。
本稿では,Multi-Source Opinion Summarization (M-OS) を用いたQF-CES (Query-Focused Comparison Explainable Summaries) の生成手法を提案する。
クエリ中心のレコメンデーションデータセットの欠如に対処するため、メタデータ付き22,500の推奨製品にマッピングされた7,500のクエリからなるMS-Q2Pを導入する。
我々はLarge Language Models (LLMs) を利用して、問合せ固有の説明を伴う表付き比較要約を生成する。
当社のアプローチはパーソナライズ、プライバシ保護、レコメンデーションエンジン非依存、カテゴリ非依存です。
中間ステップとしてのM-OSは、生データを直接処理する直接入力アプローチ(DIA)と比較して、推論遅延を約40%削減する。
QF-CES の生成と評価のためのオープンソースおよびプロプライエタリ LLM の評価を行った。
5次元にわたるQF-CES-PROMPT(明度,忠実度,情報性,形式適合性,クエリ関連性)を用いた広範囲な評価の結果,平均スピアマン相関は0.74であり,QF-CES評価の可能性を示した。
関連論文リスト
- Expanding Relevance Judgments for Medical Case-based Retrieval Task with Multimodal LLMs [0.032771631221674334]
我々は、MLLM(Multimodal Large Language Model)を用いて、関連判断を拡張し、新しい自動判断データセットを作成する。
以上の結果から,MLLMが関連判断の規模を拡大する可能性を示し,医療・マルチモーダルIRタスクにおける検索評価を支援する上で有望な方向性を提供する。
論文 参考訳(メタデータ) (2025-06-21T18:29:33Z) - Benchmarking LLMs in Recommendation Tasks: A Comparative Evaluation with Conventional Recommenders [27.273217543282215]
本稿では、クリックスルーレート予測(CTR)とシーケンシャルレコメンデーション(SeqRec)という2つの主要なレコメンデーションタスクを評価するRecBenchを紹介する。
実験は最大17種類の大モデルを対象としており、ファッション、ニュース、ビデオ、書籍、音楽ドメインの5つの多様なデータセットで実施されている。
以上の結果から,LCMベースのレコメンデータは従来のレコメンデータよりも優れ,CTRシナリオでは最大5%のAUC改善,SeqRecシナリオでは最大170%のNDCG@10改善を実現した。
論文 参考訳(メタデータ) (2025-03-07T15:05:23Z) - EACO: Enhancing Alignment in Multimodal LLMs via Critical Observation [58.546205554954454]
臨界観測(EACO)によるMLLMのアライメント向上を提案する。
EACOは、経済的に5k画像のみを使用して、MLLMを自己生成の選好データで整列する。
EACOは幻覚全体の65.6%をHalusionBenchで減らし、MME-Cognitionで21.8%改善する。
論文 参考訳(メタデータ) (2024-12-06T09:59:47Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Investigating Data Contamination in Modern Benchmarks for Large Language Models [27.479260572913724]
近年の観測は、膨らませたベンチマークスコアとLLMの実際の性能の相違を裏付けている。
我々は,オープンソースのLLMとプロプライエタリなLLMの両方に適した2つの手法を提案し,データ汚染について検討した。
いくつかの商用LCMは、様々なテストセットに欠けているオプションを驚くほど推測できる。
論文 参考訳(メタデータ) (2023-11-16T11:03:04Z) - Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting [65.00288634420812]
Pairwise Ranking Prompting (PRP)は、大規模言語モデル(LLM)の負担を大幅に軽減する手法である。
本研究は,中等級のオープンソースLCMを用いた標準ベンチマークにおいて,最先端のランク付け性能を達成した文献としては初めてである。
論文 参考訳(メタデータ) (2023-06-30T11:32:25Z) - Is ChatGPT Fair for Recommendation? Evaluating Fairness in Large
Language Model Recommendation [52.62492168507781]
LLM(FaiRLLM)を用いたFairness of Recommendationと呼ばれる新しいベンチマークを提案する。
このベンチマークは、慎重に作成されたメトリクスと、8つの機密属性を考慮に入れたデータセットで構成されている。
FaiRLLMベンチマークを用いて、ChatGPTの評価を行い、レコメンデーションを生成する際には、いくつかの機密属性に対して不公平であることがわかった。
論文 参考訳(メタデータ) (2023-05-12T16:54:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。