論文の概要: LongCoT: Benchmarking Long-Horizon Chain-of-Thought Reasoning
- arxiv url: http://arxiv.org/abs/2604.14140v1
- Date: Wed, 15 Apr 2026 17:58:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.669018
- Title: LongCoT: Benchmarking Long-Horizon Chain-of-Thought Reasoning
- Title(参考訳): LongCoT:ロングホライゾン・チェーン・オブ・ソート推論のベンチマーク
- Authors: Sumeet Ramesh Motwani, Daniel Nichols, Charles London, Peggy Li, Fabio Pizzati, Acer Blake, Hasan Hammoud, Tavish McDonald, Akshat Naik, Alesia Ivanova, Vignesh Baskaran, Ivan Laptev, Ruben Glatt, Tal Ben-Nun, Philip Torr, Natasha Jaques, Ameya Prabhu, Brian Bartoldson, Bhavya Kailkhura, Christian Schroeder de Witt,
- Abstract要約: LongCoTは、化学、数学、計算機科学、チェス、論理学にまたがる2500の専門家によって設計された問題のスケーラブルなベンチマークである。
LongCoTは長い水平推論の厳密な尺度を提供し、フロンティアモデルが長期にわたって確実に推論できる能力を追跡する。
- 参考スコア(独自算出の注目度): 50.27907326876949
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As language models are increasingly deployed for complex autonomous tasks, their ability to reason accurately over longer horizons becomes critical. An essential component of this ability is planning and managing a long, complex chain-of-thought (CoT). We introduce LongCoT, a scalable benchmark of 2,500 expert-designed problems spanning chemistry, mathematics, computer science, chess, and logic to isolate and directly measure the long-horizon CoT reasoning capabilities of frontier models. Problems consist of a short input with a verifiable answer; solving them requires navigating a graph of interdependent steps that span tens to hundreds of thousands of reasoning tokens. Each local step is individually tractable for frontier models, so failures reflect long-horizon reasoning limitations. At release, the best models achieve <10% accuracy (GPT 5.2: 9.8%; Gemini 3 Pro: 6.1%) on LongCoT, revealing a substantial gap in current capabilities. Overall, LongCoT provides a rigorous measure of long-horizon reasoning, tracking the ability of frontier models to reason reliably over extended periods.
- Abstract(参考訳): 言語モデルは、複雑な自律的なタスクのためにますますデプロイされるので、より長い地平線を正確に推論する能力が重要になる。
この能力の重要なコンポーネントは、長い複雑なチェーン・オブ・ソート(CoT)を計画し、管理することである。
これは、化学、数学、計算機科学、チェス、論理学にまたがる2500の専門家が設計した問題のスケーラブルなベンチマークで、フロンティアモデルの長距離CoT推論能力を分離し、直接測定する。
問題の解決には、数十から数十万の推論トークンにまたがる、相互依存的なステップのグラフをナビゲートする必要がある。
各局所ステップはフロンティアモデルに対して個別に牽引可能であるので、失敗は長い水平推論の制限を反映する。
リリース時に最高のモデルでは、LongCoT上で<10%の精度(GPT 5.2: 9.8%、Gemini 3 Pro: 6.1%)を達成した。
全体として、LongCoTは長い水平推論の厳密な尺度を提供し、フロンティアモデルが長期にわたって確実に推論できる能力を追跡している。
関連論文リスト
- LongBench Pro: A More Realistic and Comprehensive Bilingual Long-Context Evaluation Benchmark [24.104346815675886]
LongBench Proは、英語と中国語で自然に発生する1500の長文サンプルのより現実的なベンチマークである。
タスク固有のメトリクスによるきめ細かい分析と、コンテキスト要求の多次元分類をサポートする。
LongBench Proは、長いコンテキスト理解を進めるための堅牢なテストベッドを提供する。
論文 参考訳(メタデータ) (2026-01-06T10:01:59Z) - LongReasonArena: A Long Reasoning Benchmark for Large Language Models [94.58086553970101]
LongReasonArenaは、Long Language Models (LLMs)のロング推論能力を評価するために設計されたベンチマークである。
入力を制御することで、必要な推論長を任意にスケールでき、最も困難なタスクに対して最大100万の推論トークンに達する。
論文 参考訳(メタデータ) (2025-08-26T18:41:53Z) - SCoRE: Benchmarking Long-Chain Reasoning in Commonsense Scenarios [33.72114830484246]
SCoRE(Scenario-based Commonsense Reasoning Evaluation)は、エンティティ、リレーション、論理ルールのシナリオスキーマからマルチホップ質問を合成するベンチマークである。
SCoREには100kのバイリンガル(中国語と英語の)複数選択質問が含まれており、推論チェーンは2-11ホップにまたがり、様々な難易度にグループ化されている。
論文 参考訳(メタデータ) (2025-03-08T13:40:10Z) - Can Large Language Models Detect Errors in Long Chain-of-Thought Reasoning? [57.17826305464394]
o1-likeモデルは、既存のLarge Language Models(LLM)の推論能力を改善するための長いチェーン・オブ・ソート(CoT)推論ステップを生成する。
DeltaBenchを導入し、異なる推論タスクのために異なるo1-likeモデルから生成された長いCoTを含む。
DeltaBenchに基づいて、生成した長いCoTのきめ細かい分析を行い、異なるo1モデルの有効性と効率を明らかにする。
論文 参考訳(メタデータ) (2025-02-26T17:59:27Z) - BOLT: Bootstrap Long Chain-of-Thought in Language Models without Distillation [88.77999917897702]
OpenAIのo1は、驚くべき推論機能を示している。
多くのチームがLongCoTと推論機能を再現しようと試みている。
本稿では,o1-likeモデルや高価な人体アノテーションを蒸留することなくLCMのLongCoTキャパシティを実現するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-02-06T08:19:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。