論文の概要: LLMs as Architects and Critics for Multi-Source Opinion Summarization
- arxiv url: http://arxiv.org/abs/2507.04751v1
- Date: Mon, 07 Jul 2025 08:27:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.328592
- Title: LLMs as Architects and Critics for Multi-Source Opinion Summarization
- Title(参考訳): マルチソースオピニオン要約のためのアーキテクトと批判としてのLCM
- Authors: Anuj Attri, Arnav Attri, Pushpak Bhattacharyya, Suman Banerjee, Amey Patil, Muthusamy Chelliah, Nikesh Garera,
- Abstract要約: M-OS(Multi-source Opinion Summarization)は、従来の意見要約を超えて拡張される。
マルチソースの意見要約を評価するためのベンチマークデータセットであるM-OS-EVALを紹介する。
我々の実験は、事実に富んだ要約によってユーザーのエンゲージメントが向上することを示した。
- 参考スコア(独自算出の注目度): 34.25698222058424
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-source Opinion Summarization (M-OS) extends beyond traditional opinion summarization by incorporating additional sources of product metadata such as descriptions, key features, specifications, and ratings, alongside reviews. This integration results in comprehensive summaries that capture both subjective opinions and objective product attributes essential for informed decision-making. While Large Language Models (LLMs) have shown significant success in various Natural Language Processing (NLP) tasks, their potential in M-OS remains largely unexplored. Additionally, the lack of evaluation datasets for this task has impeded further advancements. To bridge this gap, we introduce M-OS-EVAL, a benchmark dataset for evaluating multi-source opinion summaries across 7 key dimensions: fluency, coherence, relevance, faithfulness, aspect coverage, sentiment consistency, specificity. Our results demonstrate that M-OS significantly enhances user engagement, as evidenced by a user study in which, on average, 87% of participants preferred M-OS over opinion summaries. Our experiments demonstrate that factually enriched summaries enhance user engagement. Notably, M-OS-PROMPTS exhibit stronger alignment with human judgment, achieving an average Spearman correlation of \r{ho} = 0.74, which surpasses the performance of previous methodologies.
- Abstract(参考訳): M-OS(Multi-source Opinion Summarization)は、説明、重要な特徴、仕様、レーティングなどの製品メタデータのソースをレビューとともに追加することで、従来の意見要約を超えて拡張する。
この統合は、主観的な意見と客観的な製品属性の両方を、情報的意思決定に不可欠な総合的な要約をもたらす。
大規模言語モデル (LLM) は様々な自然言語処理 (NLP) タスクで大きな成功を収めてきたが、M-OS におけるその可能性はほとんど解明されていない。
さらに、このタスクの評価データセットの欠如により、さらなる進歩が妨げられている。
このギャップを埋めるために、私たちはM-OS-EVALというベンチマークデータセットを導入しました。これは、フルーエンシ、コヒーレンス、関連性、忠実性、アスペクトカバレッジ、感情の一貫性、特異性という、7つの主要な次元にわたるマルチソースの意見要約を評価するためのベンチマークデータセットです。
その結果,M-OSはユーザエンゲージメントを著しく向上させ,平均87%の参加者が意見要約よりもM-OSを好んでいることが明らかとなった。
我々の実験は、事実に富んだ要約によってユーザーのエンゲージメントが向上することを示した。
特に、M-OS-PROMPTSは人間の判断とより強く一致し、従来の手法よりも高い<r{ho} = 0.74のスピアマン相関を達成している。
関連論文リスト
- IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - Understanding the Role of LLMs in Multimodal Evaluation Benchmarks [77.59035801244278]
本稿では,MLLM評価におけるLarge Language Model (LLM)バックボーンの役割について検討する。
本研究は4つのMLLMベンチマークと8つの最先端MLLMベンチマークを含む。
鍵となる発見は、いくつかのベンチマークでは視覚的な入力がなくても高いパフォーマンスを実現しており、最大50%のエラーレートは、LLMバックボーンにおける不十分な世界的知識に起因していることを示している。
論文 参考訳(メタデータ) (2024-10-16T07:49:13Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - From Text to Insight: Leveraging Large Language Models for Performance Evaluation in Management [6.70908766695241]
本研究では,大規模言語モデル(LLM),特にGPT-4の可能性を探り,組織的タスクパフォーマンス評価における客観性を高める。
以上の結果から,GPT評価は人間の評価に匹敵するが,一貫性と信頼性が高いことが示唆された。
LLMはテキストベースのデータから意味のある構成物を抽出できるが、その範囲は特定のパフォーマンス評価形式に限定されている。
論文 参考訳(メタデータ) (2024-08-09T20:35:10Z) - Chain-of-Thought Prompting for Demographic Inference with Large Multimodal Models [58.58594658683919]
大規模マルチモーダルモデル (LMM) は、様々な研究課題において変換可能性を示している。
以上の結果から,LMMはゼロショット学習,解釈可能性,未修正入力の処理に長所があることが示唆された。
本稿では,目標外予測問題を効果的に緩和するChain-of-Thought拡張プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-05-24T16:26:56Z) - One Prompt To Rule Them All: LLMs for Opinion Summary Evaluation [30.674896082482476]
我々は,Op-I-Promptが,人間との平均スピアマン相関を0。
我々の知る限り、我々は、意見要約領域において、クローズドソースモデルとオープンソースモデルの両方において、LCMを評価対象として調査した最初の人物です。
論文 参考訳(メタデータ) (2024-02-18T19:13:52Z) - Fusion-Eval: Integrating Assistant Evaluators with LLMs [11.309661922644217]
フュージョン・エバル(Fusion-Eval)は、Large Language Models(LLM)を活用して様々なアシスタント評価者の洞察を統合する革新的な手法である。
We show that Fusion-Eval achieve a 0.962 system-level Kendall-Tau correlation with human on SummEval and a 0.744 turn-level Spearman correlation on TopicalChat。
論文 参考訳(メタデータ) (2023-11-15T18:46:56Z) - Style Over Substance: Evaluation Biases for Large Language Models [17.13064447978519]
本研究では,大規模言語モデル(LLM)とともに,クラウドソースおよびエキスパートアノテータの挙動について検討する。
この結果から, 事実的誤りに対する回答は, 短すぎる, 文法的誤りを含む回答よりも好意的に評価され, 評価過程の偏りが示唆された。
評価面を1つのスコアにマージするのではなく,複数の次元にまたがるマシン生成テキストを独立に評価することを提案する。
論文 参考訳(メタデータ) (2023-07-06T14:42:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。