Fugu-MT 論文翻訳(概要): Can Large Language Models do Analytical Reasoning?

論文の概要: Can Large Language Models do Analytical Reasoning?

arxiv url: http://arxiv.org/abs/2403.04031v1
Date: Wed, 6 Mar 2024 20:22:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-08 16:08:01.269910
Title: Can Large Language Models do Analytical Reasoning?
Title（参考訳）: 大規模言語モデルは分析的推論が可能か?
Authors: Yebowen Hu, Kaiqiang Song, Sangwoo Cho, Xiaoyang Wang, Hassan Foroosh, Dong Yu, Fei Liu
Abstract要約: 本稿では,スポーツにおける分析的推論を用いた最先端の大規模言語モデルについて検討する。 GPT-4が有効であり,次いでClaude-2.1,GPT-3.5,Gemini-Pro,Llama-2-70bが遅れている。意外なことに、GPT-4を含むほとんどのモデルでは、NFLのクォータースコアは高いパフォーマンスを示したにもかかわらず、NBAのクォーターの総得点を正確に数えるのに苦労している。
参考スコア（独自算出の注目度）: 45.69642663863077
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper explores the cutting-edge Large Language Model with analytical reasoning on sports. Our analytical reasoning embodies the tasks of letting large language models count how many points each team scores in a quarter in the NBA and NFL games. Our major discoveries are in two folds. Firstly, we find among all the models we employed, GPT-4 stands out in effectiveness, followed by Claude-2.1, with GPT-3.5, Gemini-Pro, and Llama-2-70b lagging behind. Specifically, we compare three different prompting techniques and a divide-and-conquer approach, we find that the latter was the most effective. Our divide-and-conquer approach breaks down play-by-play data into smaller, more manageable segments, solves each piece individually, and then aggregates them together. Besides the divide-and-conquer approach, we also explore the Chain of Thought (CoT) strategy, which markedly improves outcomes for certain models, notably GPT-4 and Claude-2.1, with their accuracy rates increasing significantly. However, the CoT strategy has negligible or even detrimental effects on the performance of other models like GPT-3.5 and Gemini-Pro. Secondly, to our surprise, we observe that most models, including GPT-4, struggle to accurately count the total scores for NBA quarters despite showing strong performance in counting NFL quarter scores. This leads us to further investigate the factors that impact the complexity of analytical reasoning tasks with extensive experiments, through which we conclude that task complexity depends on the length of context, the information density, and the presence of related information. Our research provides valuable insights into the complexity of analytical reasoning tasks and potential directions for developing future large language models.
Abstract（参考訳）: 本稿では,スポーツにおける分析的推論を用いた最先端の大規模言語モデルについて検討する。私たちの分析的推論は、NBAとNFLの4分の1で各チームが得点したポイント数を、大きな言語モデルにカウントさせるタスクを具現化しています。私たちの主な発見は2つある。まず、我々が採用した全てのモデルのうち、GPT-4が有効であり、続いてClaude-2.1、GPT-3.5、Gemini-Pro、Llama-2-70bが遅れている。具体的には、3つの異なるプロンプト技術と分割・コンカレントアプローチを比較し、後者が最も効果的であることが判明した。我々の分別商法は、プレイ・バイ・プレイのデータをより小さく、より管理しやすいセグメントに分割し、各ピースを個別に解き、それらを集約する。特にgpt-4やclaude-2.1といった特定のモデルの成果を著しく改善し、その正確性が大幅に向上する思考(cot)戦略についても検討した。しかし、cot戦略はgpt-3.5やgemini-proといった他のモデルの性能に悪影響を及ぼさない。第2に、GPT-4を含むほとんどのモデルでは、NFLのクォーターの得点は高いが、NBAのクォーターの総得点を正確に数えるのに苦労している。この結果、分析的推論タスクの複雑さに影響を与える要因を広範囲な実験によってさらに検討し、タスクの複雑さは文脈の長さ、情報密度、関連する情報の存在に依存すると結論づける。本研究は,解析的推論タスクの複雑さと将来の大規模言語モデル開発に向けた潜在的方向性に関する貴重な知見を提供する。

関連論文リスト

Supernova Event Dataset: Interpreting Large Language Models' Personality through Critical Event Analysis [0.0]
大きな言語モデル(LLM)は、日々のアプリケーションにますます統合されています。本研究では,提案するSupernova Eventデータセットを用いて,モデルパーソナリティを解釈する。我々はPhi-4、Orca 2、Qwen 2.5のような小型モデルとClaude 3.7、Gemini 2.5、OpenAI o3のような大型で強力なモデルを評価した。
論文参考訳（メタデータ） (2025-06-13T19:31:52Z)
TL;DR: Too Long, Do Re-weighting for Efficient LLM Reasoning Compression [55.37723860832064]
高度なデータアノテーションに依存しない動的比に基づくトレーニングパイプラインを提案する。我々は、DeepSeek-R1-Distill-7BとDeepSeek-R1-Distill-14Bのモデルと、様々な難易度を持つ様々なベンチマークのモデルに対するアプローチを検証する。
論文参考訳（メタデータ） (2025-06-03T09:23:41Z)
Large Language Models Still Face Challenges in Multi-Hop Reasoning with External Knowledge [0.5439020425819]
我々は、Chain-of-Thoughtによる4つの推論ベンチマークでGPT-3.5モデルをテストする(そのバリエーション)。その結果,多種多様な推論タスクにおいて大きな言語モデルによって達成された驚くべき性能にもかかわらず,モデルが人間との大きな差を示す深刻な欠点に悩まされていることが明らかとなった。
論文参考訳（メタデータ） (2024-12-11T11:53:26Z)
Evaluating the Performance of Large Language Models for SDG Mapping (Technical Report) [6.789534723913505]
大規模言語モデル(LLM)は、サードパーティにデータを提供する必要をなくすことで、データのプライバシ保護を可能にする。持続可能な開発目標マッピングタスクにおいて,様々な言語モデルの性能を比較した。この研究の結果によると、LLaMA 2とGemmaは依然として改善の余地がある。
論文参考訳（メタデータ） (2024-08-05T03:05:02Z)
When Reasoning Meets Information Aggregation: A Case Study with Sports Narratives [46.04238534224658]
スポーツ物語の分析を LLM が要求する推論における情報集約の重要性について検討する。我々はNBAの実際のバスケットボールデータを用いて総合的な実験を行い、ゲーム物語を合成する新しい手法であるSportsGenを提示する。その結果, GPT-4oを含むほとんどのモデルでは, 頻繁な得点パターンのため, バスケットボールの得点を正確に集計することができないことが判明した。
論文参考訳（メタデータ） (2024-06-17T20:49:35Z)
GameBench: Evaluating Strategic Reasoning Abilities of LLM Agents [4.209869303518743]
大規模言語モデルの戦略的推論能力を評価するためのクロスドメインベンチマークであるGameBenchを紹介する。戦略的推論能力の向上を目的とした2つの足場フレームワークとともに,GPT-3とGPT-4をベースとして評価を行った。以上の結果から,試験対象モデルと人体性能は一致せず,GPT-4は無作為な動作よりも悪い結果が得られた。
論文参考訳（メタデータ） (2024-06-07T00:28:43Z)
MT-Eval: A Multi-Turn Capabilities Evaluation Benchmark for Large Language Models [70.92847554971065]
MT-Evalは,マルチターン対話能力を評価するための総合的なベンチマークである。人間のLLM会話を解析することにより,インタラクションパターンを,再現,拡張,洗練,フォローアップの4つのタイプに分類する。 11個の有名なLCMを評価したところ、クローズドソースモデルは一般的にオープンソースモデルを上回るが、特定のタスクにおいて特定のオープンソースモデルの方がGPT-3.5-Turboを上回っていることがわかった。
論文参考訳（メタデータ） (2024-01-30T04:50:28Z)
Gemini vs GPT-4V: A Preliminary Comparison and Combination of Vision-Language Models Through Qualitative Cases [98.35348038111508]
本稿では,Google の Gemini と OpenAI の GPT-4V(ision) の2つのパイオニアモデルについて,詳細な比較研究を行った。分析の核となるのは、各モデルの視覚的理解能力である。両モデルのユニークな強みとニッチを照らし出した。
論文参考訳（メタデータ） (2023-12-22T18:59:58Z)
Enhancing Large Language Models in Coding Through Multi-Perspective Self-Consistency [127.97467912117652]
大規模言語モデル(LLM)は、コード生成において顕著な能力を示した。しかし、単一の試みで正しいソリューションを生成することは依然として課題である。本稿では,MPSC(Multi-Perspective Self-Consistency)フレームワークを提案する。
論文参考訳（メタデータ） (2023-09-29T14:23:26Z)
GPT-3.5, GPT-4, or BARD? Evaluating LLMs Reasoning Ability in Zero-Shot Setting and Performance Boosting Through Prompts [0.0]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて顕著な性能を示した。本稿では, GPT-3.5, GPT-4, BARDモデルの性能について, 様々な推論タスクについて, 徹底的な技術的評価を行うことにより検討する。
論文参考訳（メタデータ） (2023-05-21T14:45:17Z)
Exploring the Trade-Offs: Unified Large Language Models vs Local Fine-Tuned Models for Highly-Specific Radiology NLI Task [49.50140712943701]
NLIタスクにおけるChatGPT/GPT-4の性能評価を行い、タスク関連データサンプルに特化して微調整された他のモデルと比較する。また,ChatGPT/GPT-4の推論能力について,様々な推論難易度を導入して総合的な調査を行った。
論文参考訳（メタデータ） (2023-04-18T17:21:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。