論文の概要: PRISM-Bench: A Benchmark of Puzzle-Based Visual Tasks with CoT Error Detection
- arxiv url: http://arxiv.org/abs/2510.23594v1
- Date: Mon, 27 Oct 2025 17:57:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.659896
- Title: PRISM-Bench: A Benchmark of Puzzle-Based Visual Tasks with CoT Error Detection
- Title(参考訳): PRISM-Bench:CoTエラー検出によるパズルベースの視覚タスクのベンチマーク
- Authors: Yusu Qian, Cheng Wan, Chao Jia, Yinfei Yang, Qingyu Zhao, Zhe Gan,
- Abstract要約: PRISM-Benchは、モデルが問題を解決することができるかどうかだけでなく、それらの推論がどのように展開するかを評価するために設計されたパズルベースの視覚的課題のベンチマークである。
視覚パズルと正確に1つのエラーを含むステップ・バイ・ステップ・オブ・シークレット(CoT)が与えられた場合、モデルは最初の誤ったステップを特定する必要がある。
- 参考スコア(独自算出の注目度): 33.98107848014898
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce \textbf{PRISM-Bench}, a benchmark of puzzle-based visual challenges designed to evaluate not only whether models can solve problems, but how their reasoning unfolds. Unlike prior evaluations that measure only final-answer accuracy, PRISM-Bench introduces a diagnostic task: given a visual puzzle and a step-by-step chain-of-thought (CoT) containing exactly one error, models must identify the first incorrect step. This setting enables fine-grained assessment of logical consistency, error detection, and visual reasoning. The puzzles in PRISM-Bench require multi-step symbolic, geometric, and analogical reasoning, resisting shortcuts based on superficial pattern matching. Evaluations across state-of-the-art MLLMs reveal a persistent gap between fluent generation and faithful reasoning: models that produce plausible CoTs often fail to locate simple logical faults. By disentangling answer generation from reasoning verification, PRISM-Bench offers a sharper lens on multimodal reasoning competence and underscores the need for diagnostic evaluation protocols in the development of trustworthy MLLMs.
- Abstract(参考訳): これは、モデルが問題を解くことができるかどうかだけでなく、それらの推論がどのように展開するかを評価するために設計されたパズルベースの視覚的課題のベンチマークである。
PRISM-Benchは、最終回答精度のみを測定する以前の評価とは異なり、視覚パズルと正確に1つのエラーを含むステップ・バイ・ステップ・チェーン・オブ・シント(CoT)が与えられた場合、モデルは最初の誤ったステップを特定する必要がある。
この設定により、論理的一貫性、エラー検出、視覚的推論のきめ細かい評価が可能になる。
PRISM-Benchのパズルは多段階の記号的、幾何学的、類推的推論を必要とし、表面的なパターンマッチングに基づくショートカットに抵抗する。
最先端のMLLMに対する評価では、流動的な生成と忠実な推論の間に永続的なギャップがあることが示される: 可塑性CoTを生成するモデルは、単純な論理的欠陥を見つけるのに失敗することが多い。
PRISM-Benchは、推論検証から回答生成を遠ざけることで、マルチモーダル推論能力のよりシャープなレンズを提供し、信頼性の高いMLLMの開発における診断評価プロトコルの必要性を浮き彫りにしている。
関連論文リスト
- seqBench: A Tunable Benchmark to Quantify Sequential Reasoning Limits of LLMs [1.0519693622157462]
我々は,Large Language Models (LLMs) における逐次推論限界を探索するベンチマークであるseqBenchを紹介する。
検索の複雑さが最小限であるにもかかわらず、セクベンチの構造的推論タスクでは、トップパフォーマンスモデルでさえ体系的に失敗することがわかった。
論文 参考訳(メタデータ) (2025-09-21T01:32:13Z) - Frontier LLMs Still Struggle with Simple Reasoning Tasks [53.497499123166804]
この研究は、フロンティア言語モデルの性能を、幅広い「容易」推論問題に対して研究する。
計算,一階述語論理,証明木,旅行計画など,手続き的に生成された単純な推論タスクのスイートを作成します。
最先端の思考モデルでさえ、このような問題や同様の理由で一貫して失敗することを示します。
論文 参考訳(メタデータ) (2025-07-09T22:22:49Z) - PuzzleWorld: A Benchmark for Multimodal, Open-Ended Reasoning in Puzzlehunts [47.92619068073141]
我々は、ステップバイステップ、オープンエンド、クリエイティブマルチモーダル推論を評価するために設計された667のパズルハントスタイルの大規模ベンチマークであるPuzzleWorldを紹介した。
ほとんどの最先端モデルでは最終解の精度は1-2%に過ぎず、最高のモデルではパズルの14%しか解けず、ステップワイズ精度は40%に達する。
誤り解析により,現在のモデルは筋力的推論を示し,言語に基づく推論の限界に悩まされ,視覚的および空間的推論に不可欠なスケッチ能力が欠如していることが判明した。
論文 参考訳(メタデータ) (2025-06-06T16:17:09Z) - TurnBench-MS: A Benchmark for Evaluating Multi-Turn, Multi-Step Reasoning in Large Language Models [5.6525926183880255]
本論文では,対話型コードブレークタスクによるマルチターン・マルチステップ推論を評価する新しいベンチマークであるTurnBenchを紹介する。
各エピソードにおいて、モデルはシーケンシャルな推測を行い、構造化されたフィードバックを受け取り、複数のラウンドで手がかりを統合することによって、隠れた論理的または算術的なルールを明らかにする必要がある。
TurnBenchには、標準推論をテストするClassicと、複雑さを増し堅牢な推論チェーンを必要とするNightmareの2つのモードがある。
論文 参考訳(メタデータ) (2025-06-02T05:47:50Z) - THOUGHTTERMINATOR: Benchmarking, Calibrating, and Mitigating Overthinking in Reasoning Models [65.39456695678713]
本稿では,問題レベルの難易度を近似的に測定し,問題の難易度と最適なトークン使用量との間に明確な関係があることを実証する。
一般に、推論モデルは、特に簡単な問題に対して、キャリブレーションが不十分である。
トレーニング不要なブラックボックス復号法であるTHOUGHTTERMINATORを導入する。
論文 参考訳(メタデータ) (2025-04-17T22:16:30Z) - PuzzleBench: A Fully Dynamic Evaluation Framework for Large Multimodal Models on Puzzle Solving [50.50405233978406]
我々は、OVPG(Open-ended Visual Puzzle Generation)という、完全に動的なマルチモーダル評価フレームワークを提案する。
OVPGは、パズル解決タスクにおいて、新しく、多様性があり、検証可能な評価データを自動的に生成することを目的としている。
OVPG上に構築されたPuzzleBenchは11,840のVQAサンプルからなる動的でスケーラブルなベンチマークである。
論文 参考訳(メタデータ) (2025-04-15T05:29:31Z) - FINEREASON: Evaluating and Improving LLMs' Deliberate Reasoning through Reflective Puzzle Solving [90.88021670297664]
FINEREASONは、大規模言語モデルの推論能力を評価するための論理パズルベンチマークである。
状態チェックと状態遷移という2つのタスクを導入し、モデルが現在の状況をどのように評価するかを総合的に評価し、次の動きを計画する。
状態チェックと遷移データに基づいてトレーニングされたモデルでは、GSM8Kで最大5.1%の精度で数学推論が向上することを示す。
論文 参考訳(メタデータ) (2025-02-27T16:23:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。