論文の概要: Can Large Language Models do Analytical Reasoning?
- arxiv url: http://arxiv.org/abs/2403.04031v1
- Date: Wed, 6 Mar 2024 20:22:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 16:08:01.269910
- Title: Can Large Language Models do Analytical Reasoning?
- Title(参考訳): 大規模言語モデルは分析的推論が可能か?
- Authors: Yebowen Hu, Kaiqiang Song, Sangwoo Cho, Xiaoyang Wang, Hassan Foroosh,
Dong Yu, Fei Liu
- Abstract要約: 本稿では,スポーツにおける分析的推論を用いた最先端の大規模言語モデルについて検討する。
GPT-4が有効であり,次いでClaude-2.1,GPT-3.5,Gemini-Pro,Llama-2-70bが遅れている。
意外なことに、GPT-4を含むほとんどのモデルでは、NFLのクォータースコアは高いパフォーマンスを示したにもかかわらず、NBAのクォーターの総得点を正確に数えるのに苦労している。
- 参考スコア(独自算出の注目度): 45.69642663863077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper explores the cutting-edge Large Language Model with analytical
reasoning on sports. Our analytical reasoning embodies the tasks of letting
large language models count how many points each team scores in a quarter in
the NBA and NFL games. Our major discoveries are in two folds. Firstly, we find
among all the models we employed, GPT-4 stands out in effectiveness, followed
by Claude-2.1, with GPT-3.5, Gemini-Pro, and Llama-2-70b lagging behind.
Specifically, we compare three different prompting techniques and a
divide-and-conquer approach, we find that the latter was the most effective.
Our divide-and-conquer approach breaks down play-by-play data into smaller,
more manageable segments, solves each piece individually, and then aggregates
them together. Besides the divide-and-conquer approach, we also explore the
Chain of Thought (CoT) strategy, which markedly improves outcomes for certain
models, notably GPT-4 and Claude-2.1, with their accuracy rates increasing
significantly. However, the CoT strategy has negligible or even detrimental
effects on the performance of other models like GPT-3.5 and Gemini-Pro.
Secondly, to our surprise, we observe that most models, including GPT-4,
struggle to accurately count the total scores for NBA quarters despite showing
strong performance in counting NFL quarter scores. This leads us to further
investigate the factors that impact the complexity of analytical reasoning
tasks with extensive experiments, through which we conclude that task
complexity depends on the length of context, the information density, and the
presence of related information. Our research provides valuable insights into
the complexity of analytical reasoning tasks and potential directions for
developing future large language models.
- Abstract(参考訳): 本稿では,スポーツにおける分析的推論を用いた最先端の大規模言語モデルについて検討する。
私たちの分析的推論は、NBAとNFLの4分の1で各チームが得点したポイント数を、大きな言語モデルにカウントさせるタスクを具現化しています。
私たちの主な発見は2つある。
まず、我々が採用した全てのモデルのうち、GPT-4が有効であり、続いてClaude-2.1、GPT-3.5、Gemini-Pro、Llama-2-70bが遅れている。
具体的には、3つの異なるプロンプト技術と分割・コンカレントアプローチを比較し、後者が最も効果的であることが判明した。
我々の分別商法は、プレイ・バイ・プレイのデータをより小さく、より管理しやすいセグメントに分割し、各ピースを個別に解き、それらを集約する。
特にgpt-4やclaude-2.1といった特定のモデルの成果を著しく改善し、その正確性が大幅に向上する思考(cot)戦略についても検討した。
しかし、cot戦略はgpt-3.5やgemini-proといった他のモデルの性能に悪影響を及ぼさない。
第2に、GPT-4を含むほとんどのモデルでは、NFLのクォーターの得点は高いが、NBAのクォーターの総得点を正確に数えるのに苦労している。
この結果、分析的推論タスクの複雑さに影響を与える要因を広範囲な実験によってさらに検討し、タスクの複雑さは文脈の長さ、情報密度、関連する情報の存在に依存すると結論づける。
本研究は,解析的推論タスクの複雑さと将来の大規模言語モデル開発に向けた潜在的方向性に関する貴重な知見を提供する。
関連論文リスト
- Evaluating the Performance of Large Language Models for SDG Mapping (Technical Report) [6.789534723913505]
大規模言語モデル(LLM)は、サードパーティにデータを提供する必要をなくすことで、データのプライバシ保護を可能にする。
持続可能な開発目標マッピングタスクにおいて,様々な言語モデルの性能を比較した。
この研究の結果によると、LLaMA 2とGemmaは依然として改善の余地がある。
論文 参考訳(メタデータ) (2024-08-05T03:05:02Z) - When Reasoning Meets Information Aggregation: A Case Study with Sports Narratives [46.04238534224658]
スポーツ物語の分析を LLM が要求する推論における情報集約の重要性について検討する。
我々はNBAの実際のバスケットボールデータを用いて総合的な実験を行い、ゲーム物語を合成する新しい手法であるSportsGenを提示する。
その結果, GPT-4oを含むほとんどのモデルでは, 頻繁な得点パターンのため, バスケットボールの得点を正確に集計することができないことが判明した。
論文 参考訳(メタデータ) (2024-06-17T20:49:35Z) - GameBench: Evaluating Strategic Reasoning Abilities of LLM Agents [4.209869303518743]
大規模言語モデルの戦略的推論能力を評価するためのクロスドメインベンチマークであるGameBenchを紹介する。
戦略的推論能力の向上を目的とした2つの足場フレームワークとともに,GPT-3とGPT-4をベースとして評価を行った。
以上の結果から,試験対象モデルと人体性能は一致せず,GPT-4は無作為な動作よりも悪い結果が得られた。
論文 参考訳(メタデータ) (2024-06-07T00:28:43Z) - MT-Eval: A Multi-Turn Capabilities Evaluation Benchmark for Large
Language Models [70.92847554971065]
MT-Evalは,マルチターン対話能力を評価するための総合的なベンチマークである。
人間のLLM会話を解析することにより,インタラクションパターンを,再現,拡張,洗練,フォローアップの4つのタイプに分類する。
11個の有名なLCMを評価したところ、クローズドソースモデルは一般的にオープンソースモデルを上回るが、特定のタスクにおいて特定のオープンソースモデルの方がGPT-3.5-Turboを上回っていることがわかった。
論文 参考訳(メタデータ) (2024-01-30T04:50:28Z) - Gemini vs GPT-4V: A Preliminary Comparison and Combination of
Vision-Language Models Through Qualitative Cases [98.35348038111508]
本稿では,Google の Gemini と OpenAI の GPT-4V(ision) の2つのパイオニアモデルについて,詳細な比較研究を行った。
分析の核となるのは、各モデルの視覚的理解能力である。
両モデルのユニークな強みとニッチを照らし出した。
論文 参考訳(メタデータ) (2023-12-22T18:59:58Z) - Enhancing Large Language Models in Coding Through Multi-Perspective Self-Consistency [127.97467912117652]
大規模言語モデル(LLM)は、コード生成において顕著な能力を示した。
しかし、単一の試みで正しいソリューションを生成することは依然として課題である。
本稿では,MPSC(Multi-Perspective Self-Consistency)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T14:23:26Z) - GPT-3.5, GPT-4, or BARD? Evaluating LLMs Reasoning Ability in Zero-Shot
Setting and Performance Boosting Through Prompts [0.0]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて顕著な性能を示した。
本稿では, GPT-3.5, GPT-4, BARDモデルの性能について, 様々な推論タスクについて, 徹底的な技術的評価を行うことにより検討する。
論文 参考訳(メタデータ) (2023-05-21T14:45:17Z) - Exploring the Trade-Offs: Unified Large Language Models vs Local
Fine-Tuned Models for Highly-Specific Radiology NLI Task [49.50140712943701]
NLIタスクにおけるChatGPT/GPT-4の性能評価を行い、タスク関連データサンプルに特化して微調整された他のモデルと比較する。
また,ChatGPT/GPT-4の推論能力について,様々な推論難易度を導入して総合的な調査を行った。
論文 参考訳(メタデータ) (2023-04-18T17:21:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。