論文の概要: GPT-5 vs Other LLMs in Long Short-Context Performance
- arxiv url: http://arxiv.org/abs/2602.14188v1
- Date: Sun, 15 Feb 2026 15:26:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.686896
- Title: GPT-5 vs Other LLMs in Long Short-Context Performance
- Title(参考訳): GPT-5 と他の LLM の長期短期成績
- Authors: Nima Esmi, Maryam Nezhad-Moghaddam, Fatemeh Borhani, Asadollah Shahbahrami, Amin Daemdoost, Georgi Gaydadjiev,
- Abstract要約: 本稿では、4つの最先端モデル(Grok-4, GPT-4, Gemini 2.5, GPT-5)を長時間の短文タスクで性能評価する。
ソーシャルメディアデータセットの入力ボリュームが5Kポスト(70Kトークン)を超えると、すべてのモデルの性能は著しく低下する。
GPT-5モデルでは, 精度の急落にもかかわらず, 精度は95%程度であった。
- 参考スコア(独自算出の注目度): 2.640490999540592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the significant expansion of the context window in Large Language Models (LLMs), these models are theoretically capable of processing millions of tokens in a single pass. However, research indicates a significant gap between this theoretical capacity and the practical ability of models to robustly utilize information within long contexts, especially in tasks that require a comprehensive understanding of numerous details. This paper evaluates the performance of four state-of-the-art models (Grok-4, GPT-4, Gemini 2.5, and GPT-5) on long short-context tasks. For this purpose, three datasets were used: two supplementary datasets for retrieving culinary recipes and math problems, and a primary dataset of 20K social media posts for depression detection. The results show that as the input volume on the social media dataset exceeds 5K posts (70K tokens), the performance of all models degrades significantly, with accuracy dropping to around 50-53% for 20K posts. Notably, in the GPT-5 model, despite the sharp decline in accuracy, its precision remained high at approximately 95%, a feature that could be highly effective for sensitive applications like depression detection. This research also indicates that the "lost in the middle" problem has been largely resolved in newer models. This study emphasizes the gap between the theoretical capacity and the actual performance of models on complex, high-volume data tasks and highlights the importance of metrics beyond simple accuracy for practical applications.
- Abstract(参考訳): LLM(Large Language Models)ではコンテキストウィンドウが大幅に拡張されているため、理論的には数百万のトークンを1回のパスで処理することができる。
しかし、この理論能力と、特に多くの詳細を包括的に理解する必要のあるタスクにおいて、長い文脈で情報をしっかりと活用するモデルの実用能力との間に大きなギャップがあることが研究によって示されている。
本稿では、4つの最先端モデル(Grok-4, GPT-4, Gemini 2.5, GPT-5)を長時間の短文タスクで性能評価する。
この目的のために、料理のレシピと数学の問題を検索するための2つの補足データセットと、うつ病検出のための20万件のソーシャルメディアポストの一次データセットの3つのデータセットが使用された。
その結果、ソーシャルメディアデータセットの入力ボリュームが5Kポスト(70Kトークン)を超えると、すべてのモデルの性能が大幅に低下し、20Kポストの精度は約50~53%に低下した。
特に, GPT-5モデルでは, 精度が著しく低下しているにもかかわらず, 精度は95%程度であり, 抑うつ検出などの敏感な応用に有効であった。
この研究は、新しいモデルでは「中間のロスト」問題が大々的に解決されたことを示唆している。
本研究は,複雑で高ボリュームなデータタスクにおけるモデルの理論的能力と実際の性能のギャップを強調し,実用アプリケーションにおける単純な精度を超えるメトリクスの重要性を強調した。
関連論文リスト
- RPC-Bench: A Fine-grained Benchmark for Research Paper Comprehension [65.81339691942757]
RPC-Bench(RPC-Bench)は、高品質なコンピュータサイエンス論文のレビュー・リビューの交換から構築された大規模質問応答ベンチマークである。
我々は、科学研究の流れに沿ったきめ細かい分類を設計し、モデルがなぜ、何、どのように学術的な文脈で質問するかを理解し、答える能力を評価する。
論文 参考訳(メタデータ) (2026-01-14T11:37:00Z) - Information Capacity: Evaluating the Efficiency of Large Language Models via Text Compression [53.39128997308138]
テキスト圧縮性能に基づくモデル効率の指標である情報容量を導入する。
主流のオープンソースモデルに対する実証的な評価は、シリーズ内のさまざまなサイズのモデルが一貫した情報容量を示すことを示している。
情報容量の特徴的な特徴は、入力と出力の両方のトークン数に影響を与えるトークン化効率が組み込まれていることである。
論文 参考訳(メタデータ) (2025-11-11T10:07:32Z) - Klear-Reasoner: Advancing Reasoning Capability via Gradient-Preserving Clipping Policy Optimization [17.149024413701014]
Klear-Reasonerは、長い推論能力を持つモデルで、問題解決時に慎重に検討する。
本報告では、学習後のワークフロー全体を網羅した推論モデルの詳細分析を行う。
論文 参考訳(メタデータ) (2025-08-11T05:17:51Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability [53.51560766150442]
臨界トークンは推論軌道内の要素であり、誤った結果に大きな影響を及ぼす。
本稿では,これらのトークンをロールアウトサンプリングによって識別する新しいフレームワークを提案する。
クリティカルトークンの識別と置換がモデル精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-11-29T18:58:22Z) - Evaluating the Impact of Compression Techniques on Task-Specific Performance of Large Language Models [0.0]
大規模言語モデル(LLM)は強力な能力を提供するが、かなりの計算コストがかかる。
本研究では,LLaMA-2-7Bモデルに対する圧縮法の影響について検討した。
SparseGPTとWandaは50%の間隔でも難易度を保っているが,下流タスクでは著しく低下している。
論文 参考訳(メタデータ) (2024-09-17T14:34:11Z) - Automated Root Causing of Cloud Incidents using In-Context Learning with
GPT-4 [23.856839017006386]
ルート原因分析(RCA)は、クラウドサービスのインシデント診断プロセスにおいて重要な役割を果たす。
GPT-4モデルの巨大なサイズは、ユーザデータにそれを微調整しようとする際の課題を示す。
そこで本研究では,自動ルート生成のためのコンテキスト内学習手法を提案し,微調整の必要性を排除した。
論文 参考訳(メタデータ) (2024-01-24T21:02:07Z) - GPT-Neo for commonsense reasoning -- a theoretical and practical lens [0.46040036610482665]
我々は6ドルのコモンセンス推論ベンチマークタスクを用いてGPT-neoモデルの性能を評価する。
我々は,GPT-neoモデルを用いて,より大規模なモデルベースラインに対して,より小さなモデルの性能を検討することを目的とする。
論文 参考訳(メタデータ) (2022-11-28T17:49:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。