論文の概要: SportsMetrics: Blending Text and Numerical Data to Understand
Information Fusion in LLMs
- arxiv url: http://arxiv.org/abs/2402.10979v1
- Date: Thu, 15 Feb 2024 20:26:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 00:15:58.557235
- Title: SportsMetrics: Blending Text and Numerical Data to Understand
Information Fusion in LLMs
- Title(参考訳): スポーツメトリクス:LLMにおける情報融合を理解するためのテキストと数値データ
- Authors: Yebowen Hu, Kaiqiang Song, Sangwoo Cho, Xiaoyang Wang, Hassan Foroosh,
Dong Yu, Fei Liu
- Abstract要約: スポーツデータ分析を中心とした4つの新しいタスクを導入し,LLMの数値推論と情報融合能力を評価する。
これらのタスクは、LEMに詳細なプレイバイプレイのスポーツゲーム記述を提供し、敵のシナリオでそれらに挑戦する。
NBAおよびNFLゲームにおいて、これらのタスクにおけるLLMの性能を評価するための広範な実験を行う。
- 参考スコア(独自算出の注目度): 45.69642663863077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models hold significant potential for integrating various data
types, such as text documents and database records, for advanced analytics.
However, blending text and numerical data presents substantial challenges. LLMs
need to process and cross-reference entities and numbers, handle data
inconsistencies and redundancies, and develop planning capabilities such as
building a working memory for managing complex data queries. In this paper, we
introduce four novel tasks centered around sports data analytics to evaluate
the numerical reasoning and information fusion capabilities of LLMs. These
tasks involve providing LLMs with detailed, play-by-play sports game
descriptions, then challenging them with adversarial scenarios such as new game
rules, longer durations, scrambled narratives, and analyzing key statistics in
game summaries. We conduct extensive experiments on NBA and NFL games to assess
the performance of LLMs on these tasks. Our benchmark, SportsMetrics,
introduces a new mechanism for assessing LLMs' numerical reasoning and fusion
skills.
- Abstract(参考訳): 大規模言語モデルは、高度な分析のためにテキスト文書やデータベースレコードなどの様々なデータ型を統合する大きな可能性を秘めている。
しかし,テキストと数値データの混在は重大な課題である。
LLMは、エンティティや数値を処理し、データ不整合や冗長性を処理し、複雑なデータクエリを管理するためのワーキングメモリを構築するような計画機能を開発する必要がある。
本稿では,スポーツデータ分析を中心とした4つの新しいタスクを紹介し,llmの数値推論と情報融合能力を評価する。
これらのタスクには、LEMに詳細なプレイバイプレイのスポーツゲーム記述を提供し、新しいゲームルール、長い期間、スクランブルされた物語、ゲーム要約における重要な統計分析などの敵シナリオに挑戦する。
NBAおよびNFLゲームにおいて、これらのタスクにおけるLLMの性能を評価するための広範な実験を行う。
我々のベンチマークであるSportsMetricsでは、LSMの数値推論と融合技術を評価するための新しいメカニズムを導入している。
関連論文リスト
- Learning to Plan for Retrieval-Augmented Large Language Models from Knowledge Graphs [59.76268575344119]
知識グラフ(KG)から得られた計画データを用いて,大規模言語モデル(LLM)計画能力を向上するための新しいフレームワークを提案する。
KGデータで微調整されたLLMは、計画能力を向上し、検索を含む複雑なQAタスクを処理するのがより適している。
論文 参考訳(メタデータ) (2024-06-20T13:07:38Z) - When Reasoning Meets Information Aggregation: A Case Study with Sports Narratives [46.04238534224658]
スポーツ物語の分析を LLM が要求する推論における情報集約の重要性について検討する。
我々はNBAの実際のバスケットボールデータを用いて総合的な実験を行い、ゲーム物語を合成する新しい手法であるSportsGenを提示する。
その結果, GPT-4oを含むほとんどのモデルでは, 頻繁な得点パターンのため, バスケットボールの得点を正確に集計することができないことが判明した。
論文 参考訳(メタデータ) (2024-06-17T20:49:35Z) - TACT: Advancing Complex Aggregative Reasoning with Information Extraction Tools [51.576974932743596]
大規模言語モデル(LLM)は、テキスト間の情報の集約を必要とするクエリではよく機能しないことが多い。
TACTには、1つ以上のテキストに散らばる縫合情報を要求する難しい命令が含まれている。
既存のテキストと関連するテーブルのデータセットを活用することで、このデータセットを構築します。
現代のLLMはいずれも,このデータセットでは性能が悪く,精度が38%以下であることが実証された。
論文 参考訳(メタデータ) (2024-06-05T20:32:56Z) - Benchmarking LLMs on the Semantic Overlap Summarization Task [9.656095701778975]
本稿では,セマンティック・オーバーラップ・サマリゼーション(SOS)タスクにおいて,Large Language Models (LLM) を包括的に評価する。
本稿では, ROUGE, BERTscore, SEM-F1$などの定評ある指標を, 2種類の代替物語のデータセット上で報告する。
論文 参考訳(メタデータ) (2024-02-26T20:33:50Z) - Evaluating LLMs' Mathematical Reasoning in Financial Document Question
Answering [53.56653281752486]
本研究では,大言語モデルによる4つの財務質問応答データセットの数学的推論について検討する。
数理推論のステップの数が増えるにつれて、テーブルの複雑さや性能の変化に対する感度に焦点をあてる。
半構造化文書に適した新しいプロンプト技術を導入する。
論文 参考訳(メタデータ) (2024-02-17T05:10:18Z) - Large Language Models for Time Series: A Survey [34.24258745427964]
大規模言語モデル (LLM) は自然言語処理やコンピュータビジョンといった領域で広く利用されている。
LLMは、気候、IoT、ヘルスケア、トラフィック、オーディオ、ファイナンスといった分野の恩恵を受けながら、時系列データを分析する上で、大きな可能性を秘めている。
論文 参考訳(メタデータ) (2024-02-02T07:24:35Z) - Embrace Divergence for Richer Insights: A Multi-document Summarization Benchmark and a Case Study on Summarizing Diverse Information from News Articles [136.84278943588652]
同一イベントを含む複数のニュース記事において遭遇する多様な情報を要約する新しい課題を提案する。
この作業を容易にするために、多様な情報を特定するためのデータ収集スキーマの概要と、DiverseSummというデータセットをキュレートした。
データセットには245のニュース記事が含まれており、各ストーリーは10のニュース記事からなり、人間公認の参照と組み合わせられる。
論文 参考訳(メタデータ) (2023-09-17T20:28:17Z) - Large Language Models as Data Preprocessors [9.99065004972981]
大規模言語モデル (LLM) は人工知能において大きな進歩を遂げている。
本研究では、データマイニングおよび分析アプリケーションにおいて重要な段階である、データ前処理におけるその可能性について検討する。
我々は,最先端のプロンプトエンジニアリング技術を統合したデータ前処理のためのLLMベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-30T23:28:43Z) - Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。
26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文 参考訳(メタデータ) (2023-05-24T10:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。