論文の概要: MM-THEBench: Do Reasoning MLLMs Think Reasonably?
- arxiv url: http://arxiv.org/abs/2601.22735v1
- Date: Fri, 30 Jan 2026 09:17:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.339869
- Title: MM-THEBench: Do Reasoning MLLMs Think Reasonably?
- Title(参考訳): MM-theBench:MLLMの推論は理にかなっているか?
- Authors: Zhidian Huang, Zijun Yao, Ji Qi, Shangqing Tu, Junxian Ma, Jinxin Liu, Weichuan Liu, Xiaoyin Che, Lei Hou, Juanzi Li,
- Abstract要約: MLLMの推論における中間CoTの幻覚評価のための総合的なベンチマークであるMM-theBenchを紹介する。
MM-theBenchは、認知次元を基盤としたきめ細かい分類法、検証された推論アノテーションを備えた多様なデータ、多段階の自動評価フレームワークを備えている。
- 参考スコア(独自算出の注目度): 45.23711313374087
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in multimodal large language models (MLLMs) mark a shift from non-thinking models to post-trained reasoning models capable of solving complex problems through thinking. However, whether such thinking mitigates hallucinations in multimodal perception and reasoning remains unclear. Self-reflective reasoning enhances robustness but introduces additional hallucinations, and subtle perceptual errors still result in incorrect or coincidentally correct answers. Existing benchmarks primarily focus on models before the emergence of reasoning MLLMs, neglecting the internal thinking process and failing to measure the hallucinations that occur during thinking. To address these challenges, we introduce MM-THEBench, a comprehensive benchmark for assessing hallucinations of intermediate CoTs in reasoning MLLMs. MM-THEBench features a fine-grained taxonomy grounded in cognitive dimensions, diverse data with verified reasoning annotations, and a multi-level automated evaluation framework. Extensive experiments on mainstream reasoning MLLMs reveal insights into how thinking affects hallucination and reasoning capability in various multimodal tasks.
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)の最近の進歩は、思考によって複雑な問題を解くことができる非思考モデルから後学習された推論モデルへのシフトを示している。
しかし、そのような思考が多モーダルな知覚と推論における幻覚を緩和するかどうかはまだ不明である。
自己反射的推論は堅牢性を高めるが、追加の幻覚を導入し、微妙な知覚的誤りはいまだに誤りまたは偶然に正しい答えをもたらす。
既存のベンチマークは主にMLLMが出現する前にモデルに焦点を当て、内部の思考プロセスを無視し、思考中に発生する幻覚を測ることに失敗した。
これらの課題に対処するために、MLLMの推論における中間CoTの幻覚を評価するための総合的なベンチマークであるMM-theBenchを紹介する。
MM-theBenchは、認知次元を基盤としたきめ細かい分類法、検証された推論アノテーションを備えた多様なデータ、多段階の自動評価フレームワークを備えている。
MLLMの主流推論に関する大規模な実験は、様々なマルチモーダルタスクにおいて、思考が幻覚や推論能力にどのように影響するかについての洞察を明らかにする。
関連論文リスト
- MIRAGE: Assessing Hallucination in Multimodal Reasoning Chains of MLLM [58.2298313720146]
マルチモーダル幻覚は多源性であり、様々な原因から生じる。
既存のベンチマークでは、知覚誘発幻覚と推論誘発幻覚を適切に区別することができない。
論文 参考訳(メタデータ) (2025-05-30T05:54:36Z) - Thinking Before Looking: Improving Multimodal LLM Reasoning via Mitigating Visual Hallucination [13.706325901731665]
MLLM(Multimodal large language model)は、視覚的・言語的モダリティの統合を推進している。
思考の連鎖(CoT)推論のような現在のアプローチは、大規模言語モデル(LLM)の認知能力を増強している。
しかし、MLLMへの適応は、相互モダリティ理解における幻覚のリスクの増大によって妨げられている。
論文 参考訳(メタデータ) (2024-11-15T21:01:37Z) - What if...?: Thinking Counterfactual Keywords Helps to Mitigate Hallucination in Large Multi-modal Models [50.97705264224828]
大規模マルチモーダルモデルに反現実的思考を組み込む新しい手法である反現実的インセプションを提案する。
我々は、より広い文脈のシーン理解にまたがる応答をモデルが関与し、生成することを目指している。
オープンソースモデルとプロプライエタリモデルの両方を含む様々なLMMの包括的分析は、反事実的思考が幻覚を著しく減少させることを裏付ける。
論文 参考訳(メタデータ) (2024-03-20T11:27:20Z) - FANToM: A Benchmark for Stress-testing Machine Theory of Mind in
Interactions [94.61530480991627]
現在、マインド評価の理論は、本質的に相互作用性に欠ける受動的物語を用いたテストモデルに焦点を当てている。
本稿では,情報非対称な会話文脈におけるToMのストレステストを目的とした新しいベンチマークであるFANToMを紹介する。
論文 参考訳(メタデータ) (2023-10-24T00:24:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。