論文の概要: PaLMR: Towards Faithful Visual Reasoning via Multimodal Process Alignment
- arxiv url: http://arxiv.org/abs/2603.06652v1
- Date: Sat, 28 Feb 2026 04:33:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:12.595228
- Title: PaLMR: Towards Faithful Visual Reasoning via Multimodal Process Alignment
- Title(参考訳): PaLMR:マルチモーダルプロセスアライメントによる忠実な視覚推論を目指して
- Authors: Yantao Li, Qiang Hui, Chenyang Yan, Kanzhi Cheng, Fang Zhao, Chao Tan, Huanling Gao, Jianbing Zhang, Kai Wang, Xinyu Dai, Shiguo Lian,
- Abstract要約: PaLMRは結果だけでなく、推論プロセス自体も整合するフレームワークです。
Qwen2.5-VL-7Bの実験から,本手法は幻覚の推論を著しく低減し,視覚的推論の忠実度を向上することが示された。
これらの結果から,PaLMRはプロセス整合型マルチモーダル推論への原則的かつ実践的な経路であることが明らかとなった。
- 参考スコア(独自算出の注目度): 29.229662966154507
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning has recently improved the reasoning ability of Large Language Models and Multimodal LLMs, yet prevailing reward designs emphasise final-answer correctness and consequently tolerate process hallucinations--cases where models reach the right answer while misperceiving visual evidence. We address this process-level misalignment with PaLMR, a framework that aligns not only outcomes but also the reasoning process itself. PaLMR comprises two complementary components: a perception-aligned data layer that constructs process-aware reasoning data with structured pseudo-ground-truths and verifiable visual facts, and a process-aligned optimisation layer that constructs a hierarchical reward fusion scheme with a process-aware scoring function to encourage visually faithful chains-of-thought and improve training stability. Experiments on Qwen2.5-VL-7B show that our approach substantially reduces reasoning hallucinations and improves visual reasoning fidelity, achieving state-of-the-art results on HallusionBench while maintaining strong performance on MMMU, MathVista, and MathVerse. These findings indicate that PaLMR offers a principled and practical route to process-aligned multimodal reasoning, advancing the reliability and interpretability of MLLMs.
- Abstract(参考訳): 強化学習は、最近、大規模言語モデルとマルチモーダルLLMの推論能力を改善したが、報酬設計は最終回答の正しさを強調し、結果としてプロセス幻覚を許容する。
このプロセスレベルのミスアライメントには、結果だけでなく、推論プロセス自体も整合するフレームワークであるPaLMRを用いて対処する。
PaLMRは、構造化された疑似地下構造と検証可能な視覚的事実によるプロセス認識推論データを構成する知覚整合データ層と、プロセス認識スコアリング機能を備えた階層的な報酬融合スキームを構築するプロセス整合最適化層と、視覚的に忠実な連鎖を奨励し、トレーニング安定性を向上させるプロセス整合データ層とからなる。
Qwen2.5-VL-7Bを用いた実験では,MMMU,MathVista,MathVerseでは高い性能を維持しつつ,ハルーシオンベンチにおける視覚的推論の精度を著しく低下させ,最先端の結果を得ることができた。
これらの結果から,PaLMRはMLLMの信頼性と解釈性を向上し,プロセス整合型マルチモーダル推論への原則的かつ実用的な経路を提供することが明らかとなった。
関連論文リスト
- Rectifying LLM Thought from Lens of Optimization [48.98086817378953]
ロングチェーン・オブ・シンクレット (Long chain-of- Thought, CoT) は、徹底的な調査と検討を可能にする。
進歩にもかかわらず、長いCoT LLMは、しばしば最適な推論行動を示す。
ポストトレーニング中のLCM推論を洗練するための新しい手法であるReProを紹介する。
論文 参考訳(メタデータ) (2025-12-01T17:41:08Z) - Reasoning Guided Embeddings: Leveraging MLLM Reasoning for Improved Multimodal Retrieval [25.629529312687694]
マルチモーダル大言語モデル(MLLM)の生成合理的なプロセスを保存するReasoning Guided Embeddings (RGE)を提案する。
提案手法はまず,命令に条件付き構造的有理数生成を実行し,推論が展開された後に表現を抽出する。
MMEBベンチマークの実験では、推論誘導条件が非推論ベースラインよりも4.9%向上することが示された。
論文 参考訳(メタデータ) (2025-11-20T08:44:47Z) - From <Answer> to <Think>: Multidimensional Supervision of Reasoning Process for LLM Optimization [62.07990937720985]
DRM(Dimension-level Reward Model)は、大規模言語モデルのための新しい監視フレームワークである。
DRMは3つの基本的、相補的、解釈可能な次元に沿って推論プロセスの品質を評価する。
実験の結果、DRMは効果的な監視信号を提供し、LCMの最適化を誘導し、推論能力を向上することが示された。
論文 参考訳(メタデータ) (2025-10-13T14:29:15Z) - Reasoning-Aligned Perception Decoupling for Scalable Multi-modal Reasoning [95.44766931218896]
MLLM(Multi-modal large language model)は、テキストベースの推論に遅れを取っている。
本稿では,MLLMの推論コンポーネントをモジュール化し,容易に置き換え可能なパーセプション推論デカップリングを提案する。
本稿では,視覚知覚最適化(VPO)と呼ばれる新しい強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-05T02:28:07Z) - SRPO: Enhancing Multimodal LLM Reasoning via Reflection-Aware Reinforcement Learning [45.28220409043598]
MLLM(Multimodal large language model)は、タスク推論において有望な能力を示すが、明示的な自己回帰と自己補正を必要とする複雑な問題に悩まされている。
既存のリフレクション手法は単純で、意味のあるインストラクティブフィードバックを生成するのに苦労している。
本稿では,2段階のリフレクション対応強化学習フレームワークであるグループ相対ポリシー最適化 (SRPO) を用いたマルチモーダル自己回帰強化推論を提案する。
論文 参考訳(メタデータ) (2025-06-02T14:21:44Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z) - Fact :Teaching MLLMs with Faithful, Concise and Transferable Rationales [102.54274021830207]
MLLMの教えに忠実で簡潔で伝達しやすい多モーダル論理を生成するために設計された新しいパラダイムであるFactを紹介する。
プログラミングパラダイムからエンドツーエンドパラダイムに転送可能な合理性をフィルタリングして、転送可能性を保証する。
また,画像とテキストの相関性が高いため,幻覚の低減も図っている。
論文 参考訳(メタデータ) (2024-04-17T07:20:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。