Fugu-MT 論文翻訳(概要): S1-Bench: A Simple Benchmark for Evaluating System 1 Thinking Capability of Large Reasoning Models

論文の概要: S1-Bench: A Simple Benchmark for Evaluating System 1 Thinking Capability of Large Reasoning Models

arxiv url: http://arxiv.org/abs/2504.10368v3
Date: Tue, 27 May 2025 05:10:36 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-28 14:37:19.331039
Title: S1-Bench: A Simple Benchmark for Evaluating System 1 Thinking Capability of Large Reasoning Models
Title（参考訳）: S1-Bench: 大規模推論モデルの能力を考慮したシステム1の評価のための簡易ベンチマーク
Authors: Wenyuan Zhang, Shuaiyi Nie, Xinghua Zhang, Zefeng Zhang, Tingwen Liu,
Abstract要約: 大規模推論モデル(LRM)は、思考の明示的な連鎖を通じて複雑な推論タスクにおいてブレークスルーを達成した。システム2の思考に大きく依存しているため、システム1の思考能力は制限される可能性がある。 S1-Bench氏は、システム1.1にもっと適した質問に対して、LEMのパフォーマンスを評価するために、単純で多様で自然な質問のスイートを紹介している。
参考スコア（独自算出の注目度）: 13.083179473480705
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce S1-Bench, a novel benchmark designed to evaluate the performance of Large Reasoning Models (LRMs) on simple tasks that favor intuitive system 1 thinking rather than deliberative system 2 reasoning. While LRMs have achieved significant breakthroughs in complex reasoning tasks through explicit chains of thought, their heavy reliance on system 2 thinking may limit their system 1 thinking capabilities. However, there is a lack of an appropriate benchmark for evaluating LRM's system 1 thinking capabilities. To fill this gap, S1-Bench introduces a suite of simple, diverse, and natural questions across multiple domains and languages, specifically designed to assess LRMs' performance on questions more suitable for system 1 . We conduct extensive evaluations across 28 LRMs, revealing their inefficiency, inadequate accuracy, and limited robustness when handling simple questions. Additionally, we observe a gap between their difficulty perception and generation length. Overall, this work paves the way toward dual-system compatibility in the development of LRMs.
Abstract（参考訳）: 本稿では,Large Reasoning Models (LRM) の性能を評価するための新しいベンチマークであるS1-Benchを紹介する。 LRMは思考の明示的な連鎖を通じて複雑な推論タスクにおいて大きなブレークスルーを遂げてきたが、システム2の思考に依存しているため、システム1の思考能力は制限される可能性がある。しかし、LRMのシステム1思考能力を評価するための適切なベンチマークが欠如している。このギャップを埋めるために、S1-Benchは複数のドメインや言語にまたがる単純で多様で自然な質問のスイートを導入している。我々は28のLEMに対して広範囲な評価を行い、その非効率性、正確性、簡単な質問に対処する際の頑健さの制限を明らかにした。さらに,それらの難易度知覚と生成長の差を観察する。全体として、この研究はLRMの開発における二重システム互換性への道を開いた。

関連論文リスト

ThinkOmni: Lifting Textual Reasoning to Omni-modal Scenarios via Guidance Decoding [65.16833684071715]
Think Omniはトレーニングフリーでデータフリーのフレームワークで、テキスト推論をOmni-modalのシナリオに持ち上げる。 6つのマルチモーダル推論ベンチマークの実験では、Think Omniが一貫してパフォーマンス改善を実現している。
論文参考訳（メタデータ） (2026-02-26T18:10:41Z)
Long-horizon Reasoning Agent for Olympiad-Level Mathematical Problem Solving [65.02106674311908]
本稿では,マルチラウンド階層的推論を行う長期水平数学エージェントであるIntern-S1-MOを紹介する。コンパクトメモリをレムマの形で維持することにより、Intern-S1-MOはレムマリッチ推論空間をより自由に探索することができる。実験の結果、インターンS1-MOはIMO2025の非幾何学的問題で35点中26点を得ることができ、銀メダリストのパフォーマンスに匹敵することがわかった。
論文参考訳（メタデータ） (2025-12-11T15:26:28Z)
Curse of Knowledge: When Complex Evaluation Context Benefits yet Biases LLM Judges [72.3356133063925]
審査員としての大規模言語モデル(LLM)のパラダイムはスケーラブルなソリューションとして登場したが、以前の作業は主に単純な設定に焦点を当てていた。我々の詳細な分析は、評価信号の精度と妥当性を向上させるための重要な洞察を提供する。
論文参考訳（メタデータ） (2025-09-03T15:48:33Z)
Reasoning Models Can be Easily Hacked by Fake Reasoning Bias [59.79548223686273]
我々は、Reasoning Theatre Bias (RTB)を評価するための総合的なベンチマークTheATERを紹介する。簡単なクイズとフェイク・オブ・サートを含む6種類のバイアスタイプについて検討した。我々は、RTBの最も強力な形式として、'hallow reasoning'-plausibleだが欠陥のある議論を識別する。
論文参考訳（メタデータ） (2025-07-18T09:06:10Z)
Controlling Thinking Speed in Reasoning Models [57.14541748751654]
人間の認知は、高速で直感的なシステム1思考と遅いシステム2思考の2つのモードで動作する。本研究では,LRMが動的思考速度調整によって人間の知能を近似することを可能にする。提案手法は, LRMにおける思考速度の制御方法と, 最適性能をいつ調整するかという2つの重要な問題に対処する。
論文参考訳（メタデータ） (2025-07-04T16:41:06Z)
The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity [16.266145641151375]
大規模な推論モデルは、回答を提供する前に詳細な思考プロセスを生成する。我々は, LRM がある種の複雑さを超えて完全に精度の低下に直面していることを示す。また、より深く推論の痕跡を調べ、探索された解のパターンを研究する。
論文参考訳（メタデータ） (2025-06-07T22:42:29Z)
OThink-R1: Intrinsic Fast/Slow Thinking Mode Switching for Over-Reasoning Mitigation [32.89904706698024]
OThink-R1は論理的妥当性を保ちながら冗長な推論ステップを誘発する手法である。 OThink-R1は、数学的および質問応答タスクにわたる実験により、推論の冗長性を平均で約23%削減することを示した。
論文参考訳（メタデータ） (2025-06-03T03:31:30Z)
THINK-Bench: Evaluating Thinking Efficiency and Chain-of-Thought Quality of Large Reasoning Models [17.609493312457]
大きな推論モデル(LRM)は複雑なタスクにおいて顕著なパフォーマンスを達成しており、しばしば従来の大言語モデル(LLM)よりも優れています。再考は計算効率を著しく制限する。 LRMの推論効率を評価するためのベンチマークであるThink-Benchを紹介する。
論文参考訳（メタデータ） (2025-05-28T08:41:14Z)
Incentivizing Dual Process Thinking for Efficient Large Language Model Reasoning [75.04643265875072]
大規模推論モデル(LRM)は複雑な推論タスクに対して強い性能を示してきたが、しばしば過度に考えることに悩まされている。認知科学における二重プロセス理論に着想を得て,適応認知政策最適化を提案する。 ACPOは、適応的な認知アロケーションと動的システムスイッチによって、LRMの効率的な推論を可能にする。
論文参考訳（メタデータ） (2025-05-22T07:15:08Z)
Computational Reasoning of Large Language Models [51.629694188014064]
textbfTuring Machine Benchは,Large Language Models(LLM)による推論プロセスの実行能力を評価するベンチマークである。 TMBenchには、自己完結型および知識に依存しない推論、最小主義的な多段階構造、制御可能な難易度、チューリングマシンに基づく理論的基礎の4つの重要な特徴が組み込まれている。
論文参考訳（メタデータ） (2025-04-29T13:52:47Z)
a1: Steep Test-time Scaling Law via Environment Augmented Generation [45.19240207975418]
Environment Augmented Generation (EAG) は、大規模言語モデルの推論をリアルタイムな環境フィードバックによって強化するフレームワークである。 EAGは、実行フィードバックと分岐探索の緊密な統合を通じて、意図的にバックトラックと戦略的再計画を可能にする。 A1-32Bモデルは、すべてのベンチマークで類似サイズのモデル間で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-04-20T12:55:59Z)
Trade-offs in Large Reasoning Models: An Empirical Analysis of Deliberative and Adaptive Reasoning over Foundational Capabilities [101.77467538102924]
近年のLRM(Large Reasoning Models)の進歩は、特殊推論タスクにおいて顕著な性能を示している。議論的推論能力の獲得は, LRMの基礎的能力を大幅に低下させることを示す。適応推論(Zero-Thinking, Less-Thinking, Summary-Thinking)がこれらの欠点を効果的に軽減できることを示します。
論文参考訳（メタデータ） (2025-03-23T08:18:51Z)
Large Reasoning Models in Agent Scenarios: Exploring the Necessity of Reasoning Capabilities [74.35956310688164]
ツール利用,計画設計,問題解決の9つのタスクを含むLaRMAフレームワークを提案する。 LRMは計画設計のような推論集約的なタスクにおいてLLMを超越し、反復反射を優れた結果に活用する、という4つの研究課題に対処する。 LRMの強化された推論は、過剰思考や事実を無視した傾向を含む高い計算コスト、長い処理、行動上の問題を引き起こす。
論文参考訳（メタデータ） (2025-03-14T04:34:31Z)
LR$^2$Bench: Evaluating Long-chain Reflective Reasoning Capabilities of Large Language Models via Constraint Satisfaction Problems [7.379503137362718]
我々はLong-chain Reflective Reasoning capabilities of Large Language Models (LLMs)を評価するために設計された新しいベンチマークLR$2$Benchを紹介する。実験結果から,DeepSeek-R1やOpenAI o1-previewのような先進的な推論モデルでさえ,LR$2$Benchのタスクと競合することが明らかとなった。
論文参考訳（メタデータ） (2025-02-25T04:51:17Z)
From System 1 to System 2: A Survey of Reasoning Large Language Models [72.87412996793957]
基礎的な大規模言語モデルは、迅速な意思決定では優れているが、複雑な推論には深みがない。 OpenAIのo1/o3とDeepSeekのR1は、数学やコーディングといった分野のエキスパートレベルのパフォーマンスを実証している。
論文参考訳（メタデータ） (2025-02-24T18:50:52Z)
Reward Models Identify Consistency, Not Causality [54.987590763737145]
最先端の報酬モデルでは、因果正しさよりも構造的な一貫性が優先される。問題文の削除は報酬のスコアに最小限の影響を与える。数値を変更するか、推論フローを乱すかは、RM出力に大きく影響する。
論文参考訳（メタデータ） (2025-02-20T14:57:14Z)
Reasoning on a Spectrum: Aligning LLMs to System 1 and System 2 Thinking [0.9709444454602557]
大きな言語モデル(LLM)は印象的な推論能力を示すが、構造化されたステップバイステップの推論に依存しているため、限界が示される。この作業は、ステップバイステップの推論が常に最適であるという仮定に挑戦し、タスク要求に基づいた推論戦略を適用する必要性を強調します。
論文参考訳（メタデータ） (2025-02-18T02:58:37Z)
MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency [63.23935582919081]
CoT (Chain-of-Thought) は,Large Language Models (LLMs) の推論能力を大幅に向上させた。我々は,LMMのCoT推論性能を評価する特別ベンチマークであるMME-CoTを紹介する。我々は最先端のLMMの詳細な分析を行い、いくつかの重要な知見を明らかにした。
論文参考訳（メタデータ） (2025-02-13T18:59:46Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)
Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。 2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文参考訳（メタデータ） (2023-05-23T06:13:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。