Fugu-MT 論文翻訳(概要): More Thinking, Less Seeing? Assessing Amplified Hallucination in Multimodal Reasoning Models

論文の概要: More Thinking, Less Seeing? Assessing Amplified Hallucination in Multimodal Reasoning Models

arxiv url: http://arxiv.org/abs/2505.21523v2
Date: Sat, 31 May 2025 16:02:34 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-03 16:22:43.458392
Title: More Thinking, Less Seeing? Assessing Amplified Hallucination in Multimodal Reasoning Models
Title（参考訳）: マルチモーダル推論モデルにおける幻覚の増幅の評価
Authors: Chengzhi Liu, Zhongxing Xu, Qingyue Wei, Juncheng Wu, James Zou, Xin Eric Wang, Yuyin Zhou, Sheng Liu,
Abstract要約: テストタイム計算は、拡張推論チェーンを生成するために、大きな言語モデルに権限を与えた。世代が長くなるにつれて、モデルは画像付きコンテンツから遠ざかっていき、言語優先に大きく依存する傾向にある。
参考スコア（独自算出の注目度）: 43.465268635499754
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Test-time compute has empowered multimodal large language models to generate extended reasoning chains, yielding strong performance on tasks such as multimodal math reasoning. However, this improved reasoning ability often comes with increased hallucination: as generations become longer, models tend to drift away from image-grounded content and rely more heavily on language priors. Attention analysis shows that longer reasoning chains lead to reduced focus on visual inputs, which contributes to hallucination. To systematically study this phenomenon, we introduce RH-AUC, a metric that quantifies how a model's perception accuracy changes with reasoning length, allowing us to evaluate whether the model preserves visual grounding during reasoning. We also release RH-Bench, a diagnostic benchmark that spans a variety of multimodal tasks, designed to assess the trade-off between reasoning ability and hallucination. Our analysis reveals that (i) larger models typically achieve a better balance between reasoning and perception, and (ii) this balance is influenced more by the types and domains of training data than by its overall volume. These findings underscore the importance of evaluation frameworks that jointly consider both reasoning quality and perceptual fidelity.
Abstract（参考訳）: テストタイム計算は、拡張推論チェーンを生成するためにマルチモーダルな大規模言語モデルに権限を与え、マルチモーダルな算数推論のようなタスクに強いパフォーマンスをもたらす。しかし、この推論能力の改善は、世代が長くなるにつれて、モデルが画像上のコンテンツから遠ざかっていき、言語優先に大きく依存する傾向にある。注意分析は、長い推論連鎖が視覚入力への焦点を減らし、幻覚に寄与することを示している。この現象を体系的に研究するために,モデルの知覚精度が推論時間とともにどのように変化するかを定量化する指標RH-AUCを導入する。また、さまざまなマルチモーダルタスクにまたがる診断ベンチマークRH-Benchをリリースし、推論能力と幻覚のトレードオフを評価する。我々の分析はそれを明らかにしている (i)大モデルは通常、推論と知覚のバランスを良くし、 (二)このバランスは、その全体量よりも、トレーニングデータのタイプや領域に影響を受けます。これらの知見は、推論品質と知覚忠実度の両方を共同で検討する評価枠組みの重要性を浮き彫りにした。

関連論文リスト

GThinker: Towards General Multimodal Reasoning via Cue-Guided Rethinking [35.14983424309319]
GThinkerは、一般的なシナリオ、数学、科学にまたがるマルチモーダル推論に優れた新しい推論MLLMである。 GThinker氏はCue-Rethinkingを紹介した。Cue-Rethinkingは視覚的手がかりを推論し、矛盾を解決するために反復的にこれらの手がかりを再解釈する柔軟な推論パターンである。トレーニングを支援するため,GThinker-11Kの構築を行った。
論文参考訳（メタデータ） (2025-06-01T16:28:26Z)
The Hallucination Dilemma: Factuality-Aware Reinforcement Learning for Large Reasoning Models [63.98194996746229]
大規模言語モデル(LLM)は、強化学習(RL)最適化を通じて、推論タスクにおいて著しく進歩している。しかし、推論指向RL微調整は幻覚の頻度を著しく高めている。本稿では,明示的事実性検証を取り入れた革新的なRL微調整アルゴリズムであるFSPOを提案する。
論文参考訳（メタデータ） (2025-05-30T14:23:32Z)
A Closer Look at Bias and Chain-of-Thought Faithfulness of Large (Vision) Language Models [53.18562650350898]
思考の連鎖(CoT)推論は、大きな言語モデルの性能を高める。大規模視覚言語モデルにおけるCoT忠実度に関する最初の総合的研究について述べる。
論文参考訳（メタデータ） (2025-05-29T18:55:05Z)
The Mirage of Multimodality: Where Truth is Tested and Honesty Unravels [22.497467057872377]
本研究は,マルチモーダル文脈におけるシステムIおよびシステムII推論に伴う歪みに関する最初の系統的研究である。遅い推論モデルは、不完全あるいは誤解を招く視覚的入力を提示すると、欠陥のある推論をサポートするために、妥当で誤った詳細をつくり出す傾向にあることを実証する。
論文参考訳（メタデータ） (2025-05-26T16:55:38Z)
Detection and Mitigation of Hallucination in Large Reasoning Models: A Mechanistic Perspective [11.013059864022667]
推論の幻覚は論理的に一貫性があるが、事実的に誤った推論トレースである。これらのエラーは構造化推論に埋め込まれており、検出が難しく、潜在的に有害である可能性がある。本稿では,ロジット間のばらつきを測定することによって推論の深さを定量化するReasoning Scoreを提案する。また,ステップレベルの深い推論報酬をポテンシャルベース形状に組み込んだ強化強化学習アルゴリズムGRPO-Rを導入する。
論文参考訳（メタデータ） (2025-05-19T09:16:40Z)
Reasoning Towards Fairness: Mitigating Bias in Language Models through Reasoning-Guided Fine-Tuning [12.559028963968247]
モデルの推論能力と公平性との関係について検討する。より強力な推論能力を持つ大型モデルは、かなり低いステレオタイプバイアスを示す。本稿では,先進的推論モデルから構造的推論トレースを抽出し,そのような能力を欠いたモデルに注入する手法であるReGiFTを紹介する。
論文参考訳（メタデータ） (2025-04-08T03:21:51Z)
Mitigating Low-Level Visual Hallucinations Requires Self-Awareness: Database, Model and Training Strategy [53.07517728420411]
低レベル視覚タスクにおける幻覚に焦点を当てた最初のインストラクションデータベースを提案する。低レベル視覚タスクにおけるモデルの知覚と理解能力を向上させるための自己認識障害除去(SAFEQA)モデルを提案する。低レベルの視覚課題に対する総合的な実験を行い、提案手法がこれらの課題におけるモデルの自己認識を著しく向上し、幻覚を低減させることを示す。
論文参考訳（メタデータ） (2025-03-26T16:05:01Z)
VERIFY: A Benchmark of Visual Explanation and Reasoning for Investigating Multimodal Reasoning Fidelity [34.29409506366145]
VERIFYは最先端MLLMの視覚的推論能力を分離し、厳格に評価するために設計されたベンチマークである。それぞれの問題には人手による推論パスが伴い、モデル決定プロセスの詳細な評価を初めて提供する。本稿では,従来のモデル推論パターンにおける重要な不均衡を浮き彫りにして,単なる精度を超える視覚的推論の忠実さを評価する新しい指標を提案する。
論文参考訳（メタデータ） (2025-03-14T16:26:11Z)
VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文参考訳（メタデータ） (2024-04-22T04:49:22Z)
Quantity Matters: Towards Assessing and Mitigating Number Hallucination in Large Vision-Language Models [57.42800112251644]
本研究では,画像中の特定の物体の数を誤って識別するモデルを参照しながら,特定の種類の幻覚数幻覚に焦点を当てた。そこで,本研究では,数幻覚を減らすための一貫性向上を目的としたトレーニング手法を考案し,直接微調整法よりも8%の性能向上を図った。
論文参考訳（メタデータ） (2024-03-03T02:31:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。