論文の概要: When Reasoning Meets Information Aggregation: A Case Study with Sports Narratives
- arxiv url: http://arxiv.org/abs/2406.12084v2
- Date: Fri, 04 Oct 2024 04:25:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-07 15:08:10.912022
- Title: When Reasoning Meets Information Aggregation: A Case Study with Sports Narratives
- Title(参考訳): 推論と情報集約 : スポーツナラティブを用いた事例研究
- Authors: Yebowen Hu, Kaiqiang Song, Sangwoo Cho, Xiaoyang Wang, Wenlin Yao, Hassan Foroosh, Dong Yu, Fei Liu,
- Abstract要約: スポーツ物語の分析を LLM が要求する推論における情報集約の重要性について検討する。
我々はNBAの実際のバスケットボールデータを用いて総合的な実験を行い、ゲーム物語を合成する新しい手法であるSportsGenを提示する。
その結果, GPT-4oを含むほとんどのモデルでは, 頻繁な得点パターンのため, バスケットボールの得点を正確に集計することができないことが判明した。
- 参考スコア(独自算出の注目度): 46.04238534224658
- License:
- Abstract: Reasoning is most powerful when an LLM accurately aggregates relevant information. We examine the critical role of information aggregation in reasoning by requiring the LLM to analyze sports narratives. To succeed at this task, an LLM must infer points from actions, identify related entities, attribute points accurately to players and teams, and compile key statistics to draw conclusions. We conduct comprehensive experiments with real NBA basketball data and present SportsGen, a new method to synthesize game narratives. By synthesizing data, we can rigorously evaluate LLMs' reasoning capabilities under complex scenarios with varying narrative lengths and density of information. Our findings show that most models, including GPT-4o, often fail to accurately aggregate basketball scores due to frequent scoring patterns. Open-source models like Llama-3 further suffer from significant score hallucinations. Finally, the effectiveness of reasoning is influenced by narrative complexity, information density, and domain-specific terms, highlighting the challenges in analytical reasoning tasks.
- Abstract(参考訳): LLMが関連情報を正確に集約する場合、推論は最も強力である。
スポーツ物語の分析を LLM が要求する推論における情報集約の重要性について検討する。
このタスクを成功させるためには、LCMはアクションからポイントを推測し、関連するエンティティを特定し、プレイヤーやチームに正確に属性ポイントを割り当て、結論を引き出すために重要な統計データをコンパイルする必要がある。
我々はNBAの実際のバスケットボールデータを用いて総合的な実験を行い、ゲーム物語を合成する新しい手法であるSportsGenを提示する。
データの合成により, 物語の長さや情報密度の異なる複雑なシナリオ下で, LLMの推論能力を厳格に評価することができる。
その結果, GPT-4oを含むほとんどのモデルでは, 頻繁な得点パターンのため, バスケットボールの得点を正確に集計することができないことが判明した。
Llama-3のようなオープンソースのモデルは、さらに大きなスコア幻覚に悩まされている。
最後に、推論の有効性は、物語の複雑さ、情報密度、ドメイン固有の用語の影響を受け、分析的推論タスクにおける課題を浮き彫りにする。
関連論文リスト
- Narrative Analysis of True Crime Podcasts With Knowledge Graph-Augmented Large Language Models [8.78598447041169]
大きな言語モデル(LLM)は、複雑な物語の弧や矛盾する情報を含む物語といまだに苦労している。
最近の研究は、外部知識ベースで強化されたLLMが、結果の精度と解釈可能性を向上させることを示唆している。
本研究では,実際のポッドキャストデータの理解における知識グラフ(KG)の適用性について検討する。
論文 参考訳(メタデータ) (2024-11-01T21:49:00Z) - Failure Modes of LLMs for Causal Reasoning on Narratives [51.19592551510628]
本研究では,大言語モデル(LLM)の因果推論能力について,物語から因果関係を推定する代表的な問題から検討する。
最新の言語モデルでさえ、物語の提示とパラメトリック知識の両方において、信頼できないショートカットに依存していることがわかった。
論文 参考訳(メタデータ) (2024-10-31T12:48:58Z) - Prompting Large Language Models with Knowledge Graphs for Question Answering Involving Long-tail Facts [50.06633829833144]
大規模言語モデル(LLM)は、様々なNLPタスクを実行するのに効果的であるが、広範囲の現実世界の知識を必要とするタスクを扱うのに苦労する。
我々は,関連する疑問に答えるために,長期的事実の知識を必要とするベンチマークを提案する。
実験の結果,LLMだけでこれらの疑問に答えるのに苦労していることが明らかとなった。
論文 参考訳(メタデータ) (2024-05-10T15:10:20Z) - Can Large Language Models do Analytical Reasoning? [45.69642663863077]
本稿では,スポーツにおける分析的推論を用いた最先端の大規模言語モデルについて検討する。
GPT-4が有効であり,次いでClaude-2.1,GPT-3.5,Gemini-Pro,Llama-2-70bが遅れている。
意外なことに、GPT-4を含むほとんどのモデルでは、NFLのクォータースコアは高いパフォーマンスを示したにもかかわらず、NBAのクォーターの総得点を正確に数えるのに苦労している。
論文 参考訳(メタデータ) (2024-03-06T20:22:08Z) - GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations [87.99872683336395]
大規模言語モデル(LLM)は、重要な現実世界のアプリケーションに統合される。
本稿では,LLMの競合環境における推論能力について検討する。
まず,広く認識されている10のタスクを構成する言語駆動型環境であるGTBenchを提案する。
論文 参考訳(メタデータ) (2024-02-19T18:23:36Z) - SportsMetrics: Blending Text and Numerical Data to Understand Information Fusion in LLMs [43.514367330413144]
スポーツデータ分析を中心とした4つの新しいタスクを導入し,LLMの数値推論と情報融合能力を評価する。
これらのタスクは、LEMに詳細なプレイバイプレイのスポーツゲーム記述を提供し、敵のシナリオでそれらに挑戦する。
NBAおよびNFLゲームにおいて、これらのタスクにおけるLLMの性能を評価するための広範な実験を行う。
論文 参考訳(メタデータ) (2024-02-15T20:26:07Z) - Exploring the Factual Consistency in Dialogue Comprehension of Large Language Models [51.75805497456226]
本研究は,対話要約タスクの助けを借りて,事実整合性の問題に焦点を当てる。
評価の結果,LLMが生成する要約の26.8%が事実整合性を含んでいることがわかった。
LLMの対話理解能力を高めるために,自動構築マルチタスクデータを用いた微調整パラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-13T09:32:12Z) - Improving Large Language Models in Event Relation Logical Prediction [33.88499005859982]
イベント関係抽出は、綿密な意味的理解と厳密な論理的推論を必要とする課題である。
本稿では,イベント関連論理の理解と適用におけるLLMの能力について,詳細な調査を行う。
本研究により,LLMは論理的に一貫した推論子ではないことが明らかとなった。
論文 参考訳(メタデータ) (2023-10-13T14:53:06Z) - Concise and Organized Perception Facilitates Reasoning in Large Language Models [32.71672086718057]
大規模言語モデル (LLM) は, 推論作業における乱雑な内容や無関係な内容を扱う際に, 人間の認知バイアスに類似した障害パターンを示す。
コンシス・アンド・オーガナイズド・パーセプション(COP)という新しい推論手法を提案する。
COPは与えられたステートメントを慎重に分析し、冗長性を効率的に排除しながら、最も関連する情報を識別する。
論文 参考訳(メタデータ) (2023-10-05T04:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。