論文の概要: SUMMIR: A Hallucination-Aware Framework for Ranking Sports Insights from LLMs
- arxiv url: http://arxiv.org/abs/2604.04947v1
- Date: Mon, 30 Mar 2026 12:45:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.350949
- Title: SUMMIR: A Hallucination-Aware Framework for Ranking Sports Insights from LLMs
- Title(参考訳): SUMMIR: LLMからスポーツインサイトをランク付けするための幻覚認識フレームワーク
- Authors: Nitish Kumar, Sannu Kumar, S Akash, Manish Gupta, Ankith Karat, Sriparna Saha,
- Abstract要約: 本稿では,試合前後に発行された記事から,ゲーム前やポストゲーム後の意味のある洞察を自動的に抽出する作業について述べる。
我々は、クリケット、サッカー、バスケットボール、野球の4つの主要なスポーツの800試合をカバーする7900のニュース記事のデータセットをキュレートする。
本研究は, 高品質で関連性の高い洞察を生み出す上でのこのアプローチの有効性を実証するとともに, LLM間での現実的一貫性と面白さの有意な差異を明らかにした。
- 参考スコア(独自算出の注目度): 15.398772820579204
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid proliferation of online sports journalism, extracting meaningful pre-game and post-game insights from articles is essential for enhancing user engagement and comprehension. In this paper, we address the task of automatically extracting such insights from articles published before and after matches. We curate a dataset of 7,900 news articles covering 800 matches across four major sports: Cricket, Soccer, Basketball, and Baseball. To ensure contextual relevance, we employ a two-step validation pipeline leveraging both open-source and proprietary large language models (LLMs). We then utilize multiple state-of-the-art LLMs (GPT-4o, Qwen2.5-72B-Instruct, Llama-3.3-70B-Instruct, and Mixtral-8x7B-Instruct-v0.1) to generate comprehensive insights. The factual accuracy of these outputs is rigorously assessed using a FactScore-based methodology, complemented by hallucination detection via the SummaC (Summary Consistency) framework with GPT-4o. Finally, we propose SUMMIR (Sentence Unified Multimetric Model for Importance Ranking), a novel architecture designed to rank insights based on user-specific interests. Our results demonstrate the effectiveness of this approach in generating high-quality, relevant insights, while also revealing significant differences in factual consistency and interestingness across LLMs. This work contributes a robust framework for automated, reliable insight generation from sports news content. The source code is availble here https://github.com/nitish-iitp/SUMMIR.
- Abstract(参考訳): オンラインスポーツジャーナリズムの急速な普及に伴い、ユーザエンゲージメントと理解を高めるためには、記事からゲーム前やポストゲーム後の意味のある洞察を抽出することが不可欠である。
本稿では,試合前後の論文からこのような知見を自動的に抽出する作業について述べる。
我々は、クリケット、サッカー、バスケットボール、野球の4つの主要なスポーツの800試合をカバーする7900のニュース記事のデータセットをキュレートする。
文脈関連性を確保するために,オープンソースとプロプライエタリな大規模言語モデル(LLM)の両方を活用する2段階の検証パイプラインを採用している。
次に、複数の最先端LCM(GPT-4o、Qwen2.5-72B-Instruct、Llama-3.3-70B-Instruct、Mixtral-8x7B-Instruct-v0.1)を用いて総合的な洞察を生成する。
GPT-4oによるSummaC(Summary Consistency)フレームワークによる幻覚検出を補完するFactScoreベースの手法を用いて,これらの出力の事実的精度を厳格に評価する。
最後に,SMMIR(Sentence Unified Multimetric Model for Importance Ranking)を提案する。
本研究は, 高品質で関連性の高い洞察を生み出す上でのこのアプローチの有効性を実証するとともに, LLM間での現実的一貫性と面白さの有意な差異を明らかにした。
この研究は、スポーツニュースコンテンツから自動化された信頼性の高い洞察生成のための堅牢なフレームワークに寄与する。
ソースコードは、https://github.com/nitish-iitp/SUMMIR.comで利用可能である。
関連論文リスト
- Let's Use ChatGPT To Write Our Paper! Benchmarking LLMs To Write the Introduction of a Research Paper [64.50822834679101]
SciIGは、タイトル、抽象、および関連する作品からコヒーレントな紹介を生成するLLMの能力を評価するタスクである。
オープンソース (DeepSeek-v3, Gemma-3-12B, LLaMA 4-Maverick, MistralAI Small 3.1) およびクローズドソース GPT-4o システムを含む5つの最先端モデルを評価する。
結果は、特に意味的類似性と忠実性において、ほとんどのメトリクスにおいて、LLaMA-4 Maverickの優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-08-19T21:11:11Z) - Document Attribution: Examining Citation Relationships using Large Language Models [62.46146670035751]
そこで本研究では,帰属を簡単なテキスト・エンタテインメント・タスクとみなすゼロショット・アプローチを提案する。
また,アトリビューションプロセスの強化におけるアテンションメカニズムの役割についても検討する。
論文 参考訳(メタデータ) (2025-05-09T04:40:11Z) - SPORTU: A Comprehensive Sports Understanding Benchmark for Multimodal Large Language Models [15.062299319625701]
SPORTUはマルチレベルスポーツ推論タスク間でMLLM(Multimodal Large Language Models)を評価するために設計されたベンチマークである。
SPORTUは2つの重要なコンポーネントで構成されている。 SPORTU-textは900の多重選択質問と、ルール理解と戦略理解のための人間アノテーションによる説明を含む。
SPORTUビデオは、7つの異なるスポーツで1,701本のスローモーションビデオクリップと12,048本のQAペアで構成され、マルチレベル推論を評価するように設計されている。
論文 参考訳(メタデータ) (2024-10-11T02:58:38Z) - AvaTaR: Optimizing LLM Agents for Tool Usage via Contrastive Reasoning [93.96463520716759]
大規模言語モデル(LLM)エージェントは、精度と幻覚を高めるために外部ツールと知識を活用する際、印象的な能力を示した。
本稿では、LLMエージェントを最適化して提供されたツールを効果的に活用し、与えられたタスクのパフォーマンスを向上させる新しい自動化フレームワークであるAvaTaRを紹介する。
論文 参考訳(メタデータ) (2024-06-17T04:20:02Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。