論文の概要: LR${}^{2}$Bench: Evaluating Long-chain Reflective Reasoning Capabilities of Large Language Models via Constraint Satisfaction Problems
- arxiv url: http://arxiv.org/abs/2502.17848v1
- Date: Tue, 25 Feb 2025 04:51:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 18:41:05.515182
- Title: LR${}^{2}$Bench: Evaluating Long-chain Reflective Reasoning Capabilities of Large Language Models via Constraint Satisfaction Problems
- Title(参考訳): LR${}^{2}$Bench:制約充足問題による大言語モデルの長鎖反射推論能力の評価
- Authors: Jianghao Chen, Zhenlin Wei, Zhenjiang Ren, Ziyong Li, Jiajun Zhang,
- Abstract要約: 我々はLong-chain Reflective Reasoning capabilities of Large Language Models (LLMs)を評価するために設計された新しいベンチマークLR$2$Benchを紹介する。
実験結果から,DeepSeek-R1やOpenAI o1-previewのような先進的な推論モデルでさえ,LR$2$Benchのタスクと競合することが明らかとなった。
- 参考スコア(独自算出の注目度): 7.379503137362718
- License:
- Abstract: Recent progress in o1-like models has significantly enhanced the reasoning abilities of Large Language Models (LLMs), empowering them to tackle increasingly complex tasks through reflection capabilities, such as making assumptions, backtracking, and self-refinement. However, effectively evaluating such reflection capabilities remains challenging due to the lack of appropriate benchmarks. To bridge this gap, we introduce LR${}^{2}$Bench, a novel benchmark designed to evaluate the Long-chain Reflective Reasoning capabilities of LLMs. LR${}^{2}$Bench comprises 850 samples across six Constraint Satisfaction Problems (CSPs) where reflective reasoning is crucial for deriving solutions that meet all given constraints. Each type of task focuses on distinct constraint patterns, such as knowledge-based, logical, and spatial constraints, providing a comprehensive evaluation of diverse problem-solving scenarios. We conduct extensive evaluation on both conventional models and o1-like models. Our experimental results reveal that even the most advanced reasoning-specific models, such as DeepSeek-R1 and OpenAI o1-preview, struggle with tasks in LR${}^{2}$Bench, achieving an average Exact Match score of only 20.0% and 23.6%, respectively. These findings underscore the significant room for improvement in the reflective reasoning capabilities of current LLMs. The leaderboard of our benchmark is available at https://huggingface.co/spaces/UltraRonin/LR2Bench
- Abstract(参考訳): o1のようなモデルの最近の進歩は、Large Language Models (LLMs) の推論能力を大幅に向上させ、仮定の作成やバックトラック、自己修正といったリフレクション機能を通じて、ますます複雑なタスクに取り組むことができるようにした。
しかし、適切なベンチマークがないため、そのようなリフレクション機能を効果的に評価することは困難である。
このギャップを埋めるために、Long-chain Reflective Reasoning機能を評価するために設計された新しいベンチマークであるLR${}^{2}$Benchを紹介する。
LR${}^{2}$Bench は、6つの制約満足度問題 (CSP) にまたがる 850 個のサンプルから構成される。
各タスクは、知識ベース、論理的、空間的制約などの異なる制約パターンに焦点を当て、多様な問題解決シナリオの包括的な評価を提供する。
従来のモデルとo1-likeモデルの両方について広範な評価を行う。
実験結果から,DeepSeek-R1 や OpenAI o1-preview のような先進的な推論モデルでさえ,LR${}^{2}$Bench のタスクと競合し,それぞれ20.0% と 23.6% のExact Match スコアを達成できた。
これらの知見は、現在のLLMの反射的推論能力を改善するための重要な余地を浮き彫りにした。
ベンチマークのリーダーボードはhttps://huggingface.co/spaces/UltraRonin/LR2Benchで公開されている。
関連論文リスト
- RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques [59.861013614500024]
我々は,Large Language Models (LLMs) の批判能力を評価するために設計された新しいベンチマークを導入する。
通常、オープンループ方式で機能する既存のベンチマークとは異なり、我々のアプローチでは、批判から生成された修正の質を評価するクローズドループ手法を採用している。
論文 参考訳(メタデータ) (2025-01-24T13:48:10Z) - LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - Are Your LLMs Capable of Stable Reasoning? [38.03049704515947]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な進歩を示している。
しかし、ベンチマークパフォーマンスと実世界のアプリケーションの間には大きな違いがある。
G-Pass@kはモデルの性能を連続的に評価する新しい評価指標である。
本稿では,挑戦的,現代数学的な問題からなる動的ベンチマークであるLiveMathBenchを紹介する。
論文 参考訳(メタデータ) (2024-12-17T18:12:47Z) - GAOKAO-Eval: Does high scores truly reflect strong capabilities in LLMs? [32.972545797220924]
大規模言語モデル(LLM)は人為的なベンチマークを用いて一般的に評価される。
GAokaO-Evalは、ハイスコアが人間の手動能力を本当に反映していないことを明らかにした。
論文 参考訳(メタデータ) (2024-12-13T11:38:10Z) - An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。
我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。
我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文 参考訳(メタデータ) (2024-11-08T12:08:17Z) - WILT: A Multi-Turn, Memorization-Robust Inductive Logic Benchmark for LLMs [0.8883751685905831]
メモリ化に抵抗するように設計された,シンプルなマルチターン推論ベンチマークである Wason Inductive Logic Test (WILT) を紹介する。
以上の結果から,LSMはこの課題に苦しむことが明らかとなった。
これらの変動にもかかわらず、最高の性能モデルは28%の精度しか達成せず、複雑なマルチターン推論タスクにおけるLLM性能の重大なギャップを浮き彫りにしている。
論文 参考訳(メタデータ) (2024-10-14T18:29:13Z) - LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Evidence to Generate (E2G): A Single-agent Two-step Prompting for
Context Grounded and Retrieval Augmented Reasoning [3.117335706912261]
Evidence to Generate(E2G)は、新しいシングルエージェント、2ステッププロンプトフレームワークである。
証明されていない推論の主張の代わりに、E2Gは文脈で明確に言及された思考列にのみ焦点をあてる。
ツールは、幅広い知識集約的な推論と生成タスクにおいて、顕著な結果を達成する。
論文 参考訳(メタデータ) (2024-01-11T09:49:15Z) - Beyond Task Performance: Evaluating and Reducing the Flaws of Large
Multimodal Models with In-Context Learning [105.77733287326308]
我々は,3Bから80Bパラメータスケールまでの最近のオープンソースLMMを,幻覚,禁忌,構成性,説明可能性,指示に従う5つの異なる軸で評価した。
トレーニングフリーなインコンテキスト学習(ICL)をソリューションとして検討し、それがこれらの制限に与える影響について検討する。
ICL研究に基づき、ICLをさらに推し進め、Multitask-ICL、Chain-of-Hindsight-ICL、Self-Correcting-ICLといった新しい多モードICL変種を提案する。
論文 参考訳(メタデータ) (2023-10-01T12:02:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。