論文の概要: LongReasonArena: A Long Reasoning Benchmark for Large Language Models
- arxiv url: http://arxiv.org/abs/2508.19363v1
- Date: Tue, 26 Aug 2025 18:41:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.399335
- Title: LongReasonArena: A Long Reasoning Benchmark for Large Language Models
- Title(参考訳): LongReasonArena: 大規模言語モデルのロング推論ベンチマーク
- Authors: Jiayu Ding, Shuming Ma, Lei Cui, Nanning Zheng, Furu Wei,
- Abstract要約: LongReasonArenaは、Long Language Models (LLMs)のロング推論能力を評価するために設計されたベンチマークである。
入力を制御することで、必要な推論長を任意にスケールでき、最も困難なタスクに対して最大100万の推論トークンに達する。
- 参考スコア(独自算出の注目度): 94.58086553970101
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing long-context benchmarks for Large Language Models (LLMs) focus on evaluating comprehension of long inputs, while overlooking the evaluation of long reasoning abilities. To address this gap, we introduce LongReasonArena, a benchmark specifically designed to assess the long reasoning capabilities of LLMs. Our tasks require models to solve problems by executing multi-step algorithms that reflect key aspects of long reasoning, such as retrieval and backtracking. By controlling the inputs, the required reasoning length can be arbitrarily scaled, reaching up to 1 million tokens of reasoning for the most challenging tasks. Extensive evaluation results demonstrate that LongReasonArena presents a significant challenge for both open-source and proprietary LLMs. For instance, Deepseek-R1 achieves only 7.5% accuracy on our task. Further analysis also reveals that the accuracy exhibits a linear decline with respect to the logarithm of the expected number of reasoning steps. Our code and data is available at https://github.com/LongReasonArena/LongReasonArena.
- Abstract(参考訳): 既存のLLM(Large Language Models)の長文ベンチマークでは、長文入力の理解度を評価しながら、長文推論能力の評価に重点を置いている。
このギャップに対処するために、LongReasonArenaを紹介します。
我々のタスクは、検索やバックトラックといった長い推論の重要な側面を反映した多段階アルゴリズムを実行することで、問題を解決するモデルを必要とする。
入力を制御することで、必要な推論長を任意にスケールでき、最も困難なタスクに対して最大100万の推論トークンに達する。
大規模な評価結果は、LongReasonArenaがオープンソースとプロプライエタリなLLMの両方に重大な課題を呈していることを示している。
例えば、Deepseek-R1はタスクで7.5%の精度しか達成していません。
さらに解析により、予想される推論ステップ数の対数に対して、精度が線形減少を示すことが明らかとなった。
私たちのコードとデータはhttps://github.com/LongReasonArena/LongReasonArenaで公開されています。
関連論文リスト
- AutoL2S: Auto Long-Short Reasoning for Efficient Large Language Models [56.063571989395946]
推論可能な大規模言語モデル(LLM)は、複雑な推論タスクにおいて強力な性能を示す。
最近のアプローチでは、長い推論や短い推論をいつ適用すべきかを手動で決めることによって、この問題に対処しようとしている。
本稿では,LLMが生成した推論経路を動的に圧縮できる動的かつモデルに依存しないフレームワークであるAuto Long-Short Reasoning (AutoL2S)を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:59:53Z) - 100-LongBench: Are de facto Long-Context Benchmarks Literally Evaluating Long-Context Ability? [28.694112253150983]
リアルタイムベースの長期コンテキスト評価ベンチマークには2つの大きな欠点がある。
LongBenchのようなベンチマークは、しばしばモデルのベースライン能力とロングコンテキストのパフォーマンスを分離するための適切なメトリクスを提供しない。
長さ制御可能な長文ベンチマークと,ベースライン知識を真の長文能力から切り離す新しいメトリクスを導入する。
論文 参考訳(メタデータ) (2025-05-25T19:58:31Z) - Between Underthinking and Overthinking: An Empirical Study of Reasoning Length and correctness in LLMs [52.405085773954596]
大規模な言語モデル(LLM)は、単純な問題を克服し、不要に長いアウトプットを生成し、より難しいものを過小評価する傾向にある。
これは、モデルが問題の難しさを誤認し、応答長を適切に調整できないことを示唆している。
実験の結果, 許容精度を維持しつつ, 生成時間を大幅に短縮できることがわかった。
論文 参考訳(メタデータ) (2025-04-30T18:48:06Z) - SCoRE: Benchmarking Long-Chain Reasoning in Commonsense Scenarios [33.72114830484246]
SCoRE(Scenario-based Commonsense Reasoning Evaluation)は、エンティティ、リレーション、論理ルールのシナリオスキーマからマルチホップ質問を合成するベンチマークである。
SCoREには100kのバイリンガル(中国語と英語の)複数選択質問が含まれており、推論チェーンは2-11ホップにまたがり、様々な難易度にグループ化されている。
論文 参考訳(メタデータ) (2025-03-08T13:40:10Z) - LongReason: A Synthetic Long-Context Reasoning Benchmark via Context Expansion [20.293369733522983]
LongReasonは、大規模言語モデルの長文推論能力を評価するための総合ベンチマークである。
LongReasonは、3つのタスクカテゴリにまたがる多様な推論パターンを持つ794の多重選択推論質問で構成されている。
LLMをLongReason上で評価した結果,コンテキスト長の増加に伴い,ほとんどのモデルが大幅な性能低下を経験していることが判明した。
論文 参考訳(メタデータ) (2025-01-25T05:32:14Z) - O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning [98.3430004984531]
精度を維持しながら推論オーバーヘッドを最小限に抑えるため,Longth-Harmonizing Fine-Tuning (O1-Pruner)を提案する。
私たちのコードはもうすぐhttps://github.com/StarDewXXX/O1-Pruner.comで公開されます。
論文 参考訳(メタデータ) (2025-01-22T01:35:11Z) - Same Task, More Tokens: the Impact of Input Length on the Reasoning Performance of Large Language Models [48.35385912526338]
本稿では,入力長がLarge Language Models(LLMs)の能力に与える影響について検討する。
同一サンプルの複数バージョンを用いて入力長の影響を分離し,それぞれが異なる長さ,タイプ,位置のパディングで拡張した。
劣化傾向はデータセットのすべてのバージョンに現れるが、強度は異なる。
論文 参考訳(メタデータ) (2024-02-19T16:04:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。