論文の概要: Beyond Final Answers: CRYSTAL Benchmark for Transparent Multimodal Reasoning Evaluation
- arxiv url: http://arxiv.org/abs/2603.13099v1
- Date: Fri, 13 Mar 2026 15:48:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:12.168942
- Title: Beyond Final Answers: CRYSTAL Benchmark for Transparent Multimodal Reasoning Evaluation
- Title(参考訳): 最終回答を超える:CRYSTAL Benchmark for Transparent Multimodal Reasoning Evaluation
- Authors: Wayner Barrios, SouYoung Jin,
- Abstract要約: CRYSTAL*は6,372のインスタンスを持つ診断ベンチマークであり、検証可能な中間段階を通してマルチモーダル推論を評価する。
本稿では,意味的類似性マッチングによるステップレベルの精度とリコールをスコアする *Match F1* と,乱れた推論連鎖をペナルティ化する *Ordered Match F1* の2つの相補的指標を提案する。
- 参考スコア(独自算出の注目度): 3.23600523782706
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce **CRYSTAL** (*__C__lear __R__easoning via __Y__ielded __S__teps, __T__raceability and __L__ogic*), a diagnostic benchmark with 6,372 instances that evaluates multimodal reasoning through verifiable intermediate steps. We propose two complementary metrics: *Match F1*, which scores step-level precision and recall via semantic similarity matching, and *Ordered Match F1*, which further penalizes disordered reasoning chains. References are constructed through a Delphi-inspired pipeline where four independent MLLMs generate trajectories, aggregated via semantic clustering and validated through human quality gates. Evaluation of 20 MLLMs, including commercial frontier systems not used during benchmark construction, reveals systematic failures invisible to accuracy: universal cherry-picking (precision far exceeds recall), non-monotonic scaling trade-offs, and disordered reasoning where no competitive model preserves more than 60% of matched steps in correct order. Beyond evaluation, we propose the **Causal Process Reward (CPR)**, a multiplicative reward that couples answer correctness with step-level alignment, and **CPR-Curriculum**, which progressively increases reasoning difficulty during training. CPR-Curriculum achieves +32% Match F1 via GRPO where additive reward strategies fail, improving reasoning without manual step annotation.
- Abstract(参考訳): CRYSTAL** (*_C_lear __R_easoning via ___Y__ielded __S_teps, __T_raceability and __L_ogic*) は、6,372のインスタンスで検証可能な中間ステップでマルチモーダル推論を評価する。
本稿では,意味的類似性マッチングによるステップレベルの精度とリコールをスコアする *Match F1* と,不規則な推論連鎖をさらにペナルティ化する *Ordered Match F1* の2つの相補的指標を提案する。
参照は、Delphiにインスパイアされたパイプラインを通じて構築され、4つの独立したMLLMは、セマンティッククラスタリングを介して集約され、人間の品質ゲートを介して検証されるトラジェクトリを生成する。
ベンチマーク構築時に使用されていない商用フロンティアシステムを含む20のMLLMの評価は、ユニバーサルチェリーピッキング(精度はリコールをはるかに上回っている)、非モノトニックスケーリングトレードオフ、競合モデルが正しく一致したステップの60%以上を正しい順序で保持しない不規則な推論といった、正確でない体系的な失敗を明らかにしている。
評価以外にも,ステップレベルのアライメントで解答をペアリングする**Causal Process Reward (CPR)*と,トレーニング中の推論の難易度を徐々に高める**CPR-Curriculum*を提案する。
CPR-CurriculumはGRPO経由でMatch F1を+32%達成し、加法的な報酬戦略は失敗し、手動のステップアノテーションなしで推論を改善する。
関連論文リスト
- When Rubrics Fail: Error Enumeration as Reward in Reference-Free RL Post-Training for Virtual Try-On [31.413458927376016]
参照不要な設定を埋めるために、Implicit Error Countingを提案する。
IECは、キャリブレーションされたルーリックに対して何が正しいかをチェックせずに、何が間違っているかを列挙します。
ネーブ明示列挙法は安定な最適化には難しすぎることを示す。
論文 参考訳(メタデータ) (2026-03-05T20:20:04Z) - Overconfident Errors Need Stronger Correction: Asymmetric Confidence Penalties for Reinforcement Learning [17.384089089363382]
既存の手法が見落としている根本原因を同定する。
現在のアプローチでは、グループ内のすべての誤ったロールアウトを同一に扱う。
非対称信頼度を考慮した誤り罰(ACE)を提案する。
論文 参考訳(メタデータ) (2026-02-24T22:46:43Z) - VERGE: Formal Refinement and Guidance Engine for Verifiable LLM Reasoning [4.3414302048068745]
本稿では,大規模言語モデルとSMTソルバを組み合わせたニューロシンボリック・フレームワークを提案する。
本稿では,(1)形式的意味的等価性チェックによるマルチモデルコンセンサス,(2)適切な検証戦略に異なるクレーム型を指示するセマンティックルーティング,(3)最小補正サブセットによる正確な論理的エラーローカライゼーション,の3点を紹介する。
GPT-OSS-120Bモデルでは、VERGEはシングルパスアプローチと比較して、一連の推論ベンチマークにおいて平均18.7%の性能向上を示す。
論文 参考訳(メタデータ) (2026-01-27T20:59:11Z) - Save the Good Prefix: Precise Error Penalization via Process-Supervised RL to Enhance LLM Reasoning [59.76691952347156]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力向上のための強力なフレームワークとして登場した。
既存のRLアプローチの多くは疎結果報酬に依存しており、部分的に成功した解では正しい中間段階を信用できない。
本稿では、PRMを用いてRL中の最初のエラーをローカライズする検証済み事前修正ポリシー最適化(VPPO)を提案する。
論文 参考訳(メタデータ) (2026-01-26T21:38:20Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - RefineBench: Evaluating Refinement Capability of Language Models via Checklists [71.02281792867531]
本研究は,2つの改良モード(ガイドリファインメントと自己リファインメント)を評価する。
ガイド付き改良では、プロプライエタリなLMと大きなオープンウェイトLMの両方が目標フィードバックを利用して、5ターン以内のほぼ完全なレベルへの応答を洗練できる。
これらの結果は、フロンティアLMは誤った反応を自己調整するためにブレークスルーを必要とすることを示唆している。
論文 参考訳(メタデータ) (2025-11-27T07:20:52Z) - Enhancing the Outcome Reward-based RL Training of MLLMs with Self-Consistency Sampling [90.87033586963828]
マルチモーダル大言語モデル(MLLM)のステップ・バイ・ステップ推論を洗練させる手段としては,アウトカム・リワード強化学習(RL)が一般的であり,ますます重要になっている。
この問題を修正するために,自己整合サンプリング(SCS)を提案する。
Qwen2.5-VL-7B-インストラクトに基づいて、SCSは、無視できる余分な計算を伴う6つのマルチモーダルベンチマークにおいて、最大7.7ポイントの精度を向上する。
論文 参考訳(メタデータ) (2025-11-13T18:59:57Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Mind the Gap: A Closer Look at Tokenization for Multiple-Choice Question Answering with LLMs [16.357595595062946]
植民地の後に空間をトークン化する方法には合意がないが、しばしば自明な選択として見過ごされる。
驚いたことに、私たちは1つの特定の戦略 -- 回答のレターとともにスペースをトークン化する -- を推奨できます。
本研究は、注意深い評価設計の重要性を強調し、標準化された透明な評価プロトコルの必要性を強調した。
論文 参考訳(メタデータ) (2025-09-18T14:47:58Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。