論文の概要: RPTS: Tree-Structured Reasoning Process Scoring for Faithful Multimodal Evaluation
- arxiv url: http://arxiv.org/abs/2511.06899v1
- Date: Mon, 10 Nov 2025 09:48:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.190933
- Title: RPTS: Tree-Structured Reasoning Process Scoring for Faithful Multimodal Evaluation
- Title(参考訳): RPTS:Fhithful Multimodal Evaluationのための木構造推論プロセススコーリング
- Authors: Haofeng Wang, Yu Zhang,
- Abstract要約: 推論プロセスツリースコア(Reasoning Process Tree Score、RPTS)は、推論プロセスを評価するツリー構造に基づくメトリクスである。
実世界のマルチモーダルシナリオでRPTSを検証するために,374の画像と390の推論インスタンスからなるRPTS-Evalという新しいベンチマークを構築した。
- 参考スコア(独自算出の注目度): 5.080252830507515
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision-Language Models (LVLMs) excel in multimodal reasoning and have shown impressive performance on various multimodal benchmarks. However, most of these benchmarks evaluate models primarily through multiple-choice or short-answer formats, which do not take the reasoning process into account. Although some benchmarks assess the reasoning process, their methods are often overly simplistic and only examine reasoning when answers are incorrect. This approach overlooks scenarios where flawed reasoning leads to correct answers. In addition, these benchmarks do not consider the impact of intermodal relationships on reasoning. To address this issue, we propose the Reasoning Process Tree Score (RPTS), a tree structure-based metric to assess reasoning processes. Specifically, we organize the reasoning steps into a reasoning tree and leverage its hierarchical information to assign weighted faithfulness scores to each reasoning step. By dynamically adjusting these weights, RPTS not only evaluates the overall correctness of the reasoning, but also pinpoints where the model fails in the reasoning. To validate RPTS in real-world multimodal scenarios, we construct a new benchmark, RPTS-Eval, comprising 374 images and 390 reasoning instances. Each instance includes reliable visual-textual clues that serve as leaf nodes of the reasoning tree. Furthermore, we define three types of intermodal relationships to investigate how intermodal interactions influence the reasoning process. We evaluated representative LVLMs (e.g., GPT4o, Llava-Next), uncovering their limitations in multimodal reasoning and highlighting the differences between open-source and closed-source commercial LVLMs. We believe that this benchmark will contribute to the advancement of research in the field of multimodal reasoning.
- Abstract(参考訳): LVLM(Large Vision-Language Models)はマルチモーダル推論に優れ、様々なマルチモーダルベンチマークで顕著な性能を示している。
しかしながら、これらのベンチマークのほとんどは、主に複数の選択またはショートアンサーフォーマットを通じてモデルを評価し、推論プロセスを考慮していない。
推論プロセスを評価するベンチマークもあるが、その手法は単純すぎることが多く、答えが正しくない場合にのみ推論を検証する。
このアプローチは、欠陥のある推論が正しい答えにつながるシナリオを見落としている。
さらに、これらのベンチマークは、モーダル間の関係が推論に与える影響を考慮していない。
この問題に対処するために,木構造に基づく推論プロセス評価指標であるReasoning Process Tree Score (RPTS)を提案する。
具体的には、推論ステップを推論ツリーに整理し、その階層的な情報を活用して、各推論ステップに重み付けされた忠実度スコアを割り当てる。
これらの重みを動的に調整することで、RPTSは推論の全体的な正しさを評価するだけでなく、モデルが推論で失敗する点も評価する。
実世界のマルチモーダルシナリオにおけるRPTSの有効性を検証するため、374の画像と390の推論インスタンスからなるRPTS-Evalという新しいベンチマークを構築した。
それぞれのインスタンスには、推論ツリーのリーフノードとして機能する、信頼できるビジュアルテキストのヒントが含まれている。
さらに、モーダル間相互作用が推論プロセスにどのように影響するかを調べるために、3種類のモーダル間関係を定義した。
代表LVLM(例: GPT4o, Llava-Next)を評価し, マルチモーダル推論の限界を明らかにし, オープンソースとクローズドソースの商業LVLMの違いを強調した。
我々は,このベンチマークがマルチモーダル推論の分野での研究の進展に寄与すると信じている。
関連論文リスト
- Implicit Reasoning in Large Language Models: A Comprehensive Survey [67.53966514728383]
大規模言語モデル(LLM)は、幅広いタスクにまたがる強力な一般化を実証している。
最近の研究は、暗黙の推論に拍車をかけた、明示的な思考の連鎖から注意を向けている。
本調査では,表現形式から計算戦略へ焦点を移し,実行パラダイムを中心とした分類を紹介した。
論文 参考訳(メタデータ) (2025-09-02T14:16:02Z) - CMR-SPB: Cross-Modal Multi-Hop Reasoning over Text, Image, and Speech with Path Balance [10.843417240658992]
クロスモーダル・マルチホップ推論(CMR)は、マルチモーダル・大規模言語モデル(MLLM)の重要かつ未探索の能力である。
この能力を評価するための既存のベンチマークには、重大な欠点がある、と我々は主張する。
CMR-SPB (Cross-Modal Multi-Hop Reasoning over Text, Image and Speech with Path Balance) という新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-08-22T08:17:31Z) - DialogueReason: Rule-Based RL Sparks Dialogue Reasoning in LLMs [54.4857963044859]
本稿では,モノローグ型推論モデルにおける失われた役割を明らかにする推論パラダイムであるDialogueReasonを提案する。
本研究は,モノログ推論パターンの分析と対話に基づく推論手法の開発から成っている。
論文 参考訳(メタデータ) (2025-05-11T16:39:58Z) - InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal
Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。
本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。
我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文 参考訳(メタデータ) (2023-11-20T07:06:31Z) - STREET: A Multi-Task Structured Reasoning and Explanation Benchmark [56.555662318619135]
マルチタスクとマルチドメインの自然言語推論と説明ベンチマークを統一的に導入する。
我々は、モデルが質問に答えるだけでなく、ある解の正しさを証明できる中間的な結論を生成するために、問題の前提がどのように使われているかを記述する、段階的に構造化された説明を生成することを期待している。
論文 参考訳(メタデータ) (2023-02-13T22:34:02Z) - Is Multi-Hop Reasoning Really Explainable? Towards Benchmarking
Reasoning Interpretability [33.220997121043965]
マルチホップ推論モデルの解釈可能性を定量的に評価する統合フレームワークを提案する。
具体的には、パスリコール、ローカルインタープリタビリティ、評価のためのグローバルインタープリタビリティの3つのメトリクスを定義します。
その結果、現在のマルチホップ推論モデルの解釈性は満足度が低く、ベンチマークによる上限からは程遠いことがわかった。
論文 参考訳(メタデータ) (2021-04-14T10:12:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。